Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/datastorieslanguages/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Data, Stories and Languages | Telegram Webview: datastorieslanguages/422 -
Telegram Group & Telegram Channel
​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience



group-telegram.com/datastorieslanguages/422
Create:
Last Update:

​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/422

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from sa


Telegram Data, Stories and Languages
FROM American