Telegram Group & Telegram Channel
В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...

...Reinforcement Learning for Reasoning in Large Language Models with 😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!

Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:

Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами 🧠, им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.

Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения? ✍️).

В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).

Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить. 😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .

Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study. 📃

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/2093
Create:
Last Update:

В последнее время в статьях про дообучение LLM на решение математических задач и прочий reasoning намечается тренд на экстремальное уменьшение размеров датасетов при экстремальном увеличении их качества. Так, в статье s1: Simple test-time scaling ( https://arxiv.org/abs/2501.19393 ) используется fine-tuning на 1000 примерах, в Less Is MOre for reasoning ( https://arxiv.org/abs/2502.03387 ) - на 817... куда же заведет эта дорожка? Сегодня утром я совершенно внезапно для себя нашла ответ: проснулась, потянулась, проверила список Huggingface Daily Papers за 30 апреля 😶 и увидела...

...Reinforcement Learning for Reasoning in Large Language Models with 😱 One 😱 Training Example ( https://arxiv.org/abs/2504.20571 )!

Авторы утверждают, что их RL на одном примере позволяет очень сильно улучшить качество решения математических датасетов маленькими моделями - Qwen2.5-Math-1.5B (результат см. на рис. 1), а также Qwen2.5-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B и, в некоторой степени, Llama3.2-3B-Instruct. Но есть несколько нюансов:

Во-первых, для того, чтобы найти тот самый пример-бриллиант, от которого умственные способности моделей засветятся синими лучами 🧠, им пришлось все же провести предварительное обучение Qwen2.5-Math-1.5B с помощью GRPO (policy gradient loss + KL divergence loss + entropy loss) на 1209 примерах из DeepScaleR-Preview-Dataset в течении нескольких эпох, с целью ранжирования примеров. 📈 После этого, авторы отсортировали примеры в зависимости от того, какую вариацию качества на трейне давали шаги градиента на каждом примере в течении обучения, и обозначили каждый пример буквой π с индексом. Так, π₁ - это пример, обучение на котором максимально меняло качество на трейне, π₂ - пример, стоящий на втором месте по вариации качества и т.д. И только после этого авторы стали пробовать обучать исходные модели из исходных чекпоинтов - в первую очередь, на примере π₁, и вторую очередь, на других хороших.

Во-вторых, чтобы отобранный пример действительно улучшил качество модели, на нем придется сделать около 1000-2000 итераций (повторение - мать учения? ✍️).

В-третьих, чудо-пример, найденный с помощью Qwen2.5-Math-1.5B, хоть и более-менее переносит свои волшебные качества на два других квена, но не так хорошо переносится на Llama (у той увеличение качества в среднем оказалось всего около 2%, см. рис. 2 для подробностей).

Тем не менее, заявление авторов статьи звучит сильно, и будет очень интересно, если кто-нибудь сможет его независимо подтвердить. 😄 Благо, что код публично выложили на github: https://github.com/ypwang61/One-Shot-RLVR .

Сами волшебные примеры π номер 1 и 3, кстати, можно посмотреть на рис. 3, а в аппендиксе статьи - увидеть ещё несколько. А еще статья содержит довольно большой раздел с анализом и ablation study. 📃

#объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧






Share with your friend now:
group-telegram.com/tech_priestess/2093

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from ua


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American