Telegram Group & Telegram Channel
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
👍20🔥15👏4🌚2



group-telegram.com/robofuture/110
Create:
Last Update:

На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.

BY RoboFuture




Share with your friend now:
group-telegram.com/robofuture/110

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Telegram Messenger Blocks Navalny Bot During Russian Election In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from us


Telegram RoboFuture
FROM American