Telegram Group & Telegram Channel
По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393
👍141🔥4221❤‍🔥4👌2🦄2😁1🎃1



group-telegram.com/data_secrets/6119
Create:
Last Update:

По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.


Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6119

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from ca


Telegram Data Secrets
FROM American