Telegram Group & Telegram Channel
🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3508
Create:
Last Update:

🔥 Tina: Tiny Reasoning Models via LoRA — это работа, в которой показано, как можно эффективно обучить небольшие llm (1.5B параметров) для reasoning задач , с помощью 🔧 LoRA + RL.

🧪 Что сделали:
Разработчики взяли 1модель 5B параметров, дообучили её, используя LoRA-RL на качественно отобранных reasoning-задачах.

Потратили всего $9.

Получили +20% улучшения и 43% на бенчмарке AIME24.

LoRA-RL > Full RL:
Дообучение через LoRA работает лучше, чем RL и гораздо дешевле.

Лучшие результаты модели совпадают не с пиками точности, а с моментами, когда модель меняет стиль ответа (формат/структуру), подстраиваясь под формат вознаграждения.

Модель обучается эффективно изменять структуру рассуждений, сохраняя своё "ядро знаний".

📌 Модели: https://huggingface.co/Tina-Yi
📌Сататья: https://arxiv.org/abs/2504.15777
📌Релиз: https://shangshangwang.notion.site/tina

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3508

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from us


Telegram Анализ данных (Data analysis)
FROM American