Telegram Group & Telegram Channel
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393
👍141🔥4221❤‍🔥4👌2🦄2😁1🎃1



group-telegram.com/data_secrets/6119
Create:
Last Update:

По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6119

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world.
from sg


Telegram Data Secrets
FROM American