group-telegram.com/data_secrets/6119
Create:
Last Update:
Last Update:
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов
"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?
Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.
Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:
1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.
2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.
3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.
4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.
Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.
К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.
Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.
И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.
https://arxiv.org/pdf/2501.19393
BY Data Secrets

Share with your friend now:
group-telegram.com/data_secrets/6119