Telegram Group & Telegram Channel
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
🔥23👍22👏4🌚2



group-telegram.com/robofuture/110
Create:
Last Update:

На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.

BY RoboFuture




Share with your friend now:
group-telegram.com/robofuture/110

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from ua


Telegram RoboFuture
FROM American