Telegram Group & Telegram Channel
​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience



group-telegram.com/datastorieslanguages/422
Create:
Last Update:

​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/422

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Some privacy experts say Telegram is not secure enough In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from us


Telegram Data, Stories and Languages
FROM American