Telegram Group & Telegram Channel
🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3508
Create:
Last Update:

🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3508

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from sa


Telegram Анализ данных (Data analysis)
FROM American