Telegram Group & Telegram Channel
Поскольку сейчас выходит тонна ресерча про то, как сварить свою ризонинг модель, решила здесь как-то суммировать то, что есть к настоящему времени. Первая пачка статей о том, как связаны между собой SFT-претрен и RL и вообще про то, при каких условиях ризонинг нам в чем-то помогает


🤔 Cognitive Behaviors that Enable Self-Improving Reasoners

Отличный разбор этой статьи уже был в Сиолошной, я из нее хочу выделить несколько моментов:

- Авторы описывают 4 вида когнитивных приемов, которые модели могут использовать, чтобы добиться лучших результатов при решении проблем: 1) делать шаг назад и пересматривать свой ответ, когда обнаруживается ошибка, 2) перепроверка промежуточных результатов, 3) дробление на подзадачи, 4) решение задачи "в обратную сторону", то есть, зная ответ, пытаться догадаться, какие шаги к нему привели
- У Qwen и без какого-либо дообучения в 62% процентов размышлений была самопроверка. В отличие от моделей семейства LLaMA, где такого почти не наблюдалось
- Для эксперимента авторы собрали примеры цепочек рассуждения Claude-3.5-Sonnet, в которых бы использовались описанные выше 4 приема, и после SFT-тренировки на них скоры LLaMA стали заметно выше Qwen
- Интересно при этом, что даже при тренировке на цепочках с ошибками (в одном из шагов или с неправильнмы ответом), качество итоговой модели практически никак не отличалось от той, что тренировалась только на "правильных" цепочках
- Аналогично проверяли гипотезу о том, не помогает ли просто длина ответа решать задачи лучше. То есть, видим ли мы улучшение только из-за того, что модель может рассуждать дольше, или из-за того, что в обучении было что-то полезное. Для этого также обучали модель на "пустых" chains-of-thought, где просто нужную длину добили каким-нибудь токеном (по аналогии со статьями про think tokens ранее, где модели как будто просто давали "время" подумать перед ответом). Это никакого прироста скоров не дало
- После SFT-тренировки модели также дообучали с помощью RL играть в Countdown. Там оказывалось, что RL больше "продвигает" наиболее эмпирически полезные для игры стратегии – верификацию и пересматривание ответа – и подавляет не особо нужные


1/2
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/def_model_train/1059
Create:
Last Update:

Поскольку сейчас выходит тонна ресерча про то, как сварить свою ризонинг модель, решила здесь как-то суммировать то, что есть к настоящему времени. Первая пачка статей о том, как связаны между собой SFT-претрен и RL и вообще про то, при каких условиях ризонинг нам в чем-то помогает


🤔 Cognitive Behaviors that Enable Self-Improving Reasoners

Отличный разбор этой статьи уже был в Сиолошной, я из нее хочу выделить несколько моментов:

- Авторы описывают 4 вида когнитивных приемов, которые модели могут использовать, чтобы добиться лучших результатов при решении проблем: 1) делать шаг назад и пересматривать свой ответ, когда обнаруживается ошибка, 2) перепроверка промежуточных результатов, 3) дробление на подзадачи, 4) решение задачи "в обратную сторону", то есть, зная ответ, пытаться догадаться, какие шаги к нему привели
- У Qwen и без какого-либо дообучения в 62% процентов размышлений была самопроверка. В отличие от моделей семейства LLaMA, где такого почти не наблюдалось
- Для эксперимента авторы собрали примеры цепочек рассуждения Claude-3.5-Sonnet, в которых бы использовались описанные выше 4 приема, и после SFT-тренировки на них скоры LLaMA стали заметно выше Qwen
- Интересно при этом, что даже при тренировке на цепочках с ошибками (в одном из шагов или с неправильнмы ответом), качество итоговой модели практически никак не отличалось от той, что тренировалась только на "правильных" цепочках
- Аналогично проверяли гипотезу о том, не помогает ли просто длина ответа решать задачи лучше. То есть, видим ли мы улучшение только из-за того, что модель может рассуждать дольше, или из-за того, что в обучении было что-то полезное. Для этого также обучали модель на "пустых" chains-of-thought, где просто нужную длину добили каким-нибудь токеном (по аналогии со статьями про think tokens ранее, где модели как будто просто давали "время" подумать перед ответом). Это никакого прироста скоров не дало
- После SFT-тренировки модели также дообучали с помощью RL играть в Countdown. Там оказывалось, что RL больше "продвигает" наиболее эмпирически полезные для игры стратегии – верификацию и пересматривание ответа – и подавляет не особо нужные


1/2

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/1059

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. Founder Pavel Durov says tech is meant to set you free "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said.
from tw


Telegram я обучала одну модель
FROM American