Telegram Group & Telegram Channel
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393
👍141🔥4221❤‍🔥4👌2🦄2😁1🎃1



group-telegram.com/data_secrets/6119
Create:
Last Update:

По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6119

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from it


Telegram Data Secrets
FROM American