Telegram Group & Telegram Channel
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393
👍141🔥4221❤‍🔥4👌2🦄2😁1🎃1



group-telegram.com/data_secrets/6119
Create:
Last Update:

По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6119

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from tw


Telegram Data Secrets
FROM American