Telegram Group & Telegram Channel
🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3508
Create:
Last Update:

🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3508

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists."
from id


Telegram Анализ данных (Data analysis)
FROM American