group-telegram.com/datastorieslanguages/422
Last Update:
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.
Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).
Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.
У меня есть несколько сомнений:
• Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.
В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.
#datascience
BY Data, Stories and Languages

Share with your friend now:
group-telegram.com/datastorieslanguages/422