Telegram Group & Telegram Channel
🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3508
Create:
Last Update:

🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3508

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke.
from vn


Telegram Анализ данных (Data analysis)
FROM American