NeuralShit Telegram Group

Forwarded from .ml

Архитектура LLM

Что вообще такое эти ваши LLM и чем они отличаются от привычных трансформеров? Давайте разбираться.

Если пытаться дать определение, то LLM — это большая языковая модель, которая была обучена генерировать ответ на какую-либо инструкцию.
Тут два ключевых момента, не считая размер модели: то, что модель генеративная, и то, что она умеет принимать на вход какие-либо инструкции.

📝 Разбираемся с генеративностью

Какая часть трансформера умеет в генерацию текста? Правильно, декодер. Собственно, LLM — это просто жирный (с большим количеством параметров) transformer decoder. Или encoder-decoder, но это только у старых моделей, типа T5. Новые GPT-like архитектуры от энкодеров отошли.

Способность же принимать на вход инструкцию обусловлена пайплайном обучения модели, включая специфичные инструкционные данные, а не какими-либо архитектурными модификациями.

Особенность этого пайлайна — после этапа pre-train модели проводят этап alignment, дообучая модель на инструкционных датасетах. В таких датасете каждый сэмпл — это диалог человека с LLM, который может включать в себя системный промпт (как раз-таки инструкцию), сообщения от лица человека и сообщения от лица LLM, зачастую промаркированные на предмет «хорошести» ответа. Сейчас самые популярные инструкционные датасеты — это Nectar и UltraFeedback.

Итого, LLM — это просто здоровенный transformer decoder, дообученный на инструкционном датасете.
Если углубляться в детали, то популярными архитектурными особенностями современных LLM являются:

- Rotary Positional Encoding (RoPE) и его модификации в качестве позиционного кодирования — вот наш пост про это.

Почему? Помогает работать с более длинным контекстом без значимой потери качества.

- RMSNorm вместо LayerNorm для нормализации.

Почему? Работает сопоставимо по качеству, но проще (быстрее) вычислять — а скорость нам важна.

- Sliding Window, Grouped-Query или Multi-Query вместо ванильного Multi-Head Attention:

Почему? Чем меньше параметров, тем быстрее вычислять.

- Может использоваться Mixture-of-Experts, но это скорее частные случаи.

Почему? Увеличиваем количество параметров модели, не увеличивая при этом сложность вычислений (хоть и страдаем по памяти).

P.S.: если вы увидели много незнакомых слов — не переживайте, в следующих постах расскажем про то, как именно работают все эти навороты.

Эти же архитектурный особенности характерны и для негенеративных современных моделек: например, для энкодеров. Так что нельзя сказать, что это что-то LLM-специфичное — скорее архитектурная база любых современных трансформеров.

12.1K views14:20

Ну вы знаете, за что это вам.

видео отсюда

12.9K viewsedited 19:43

Neural Shit

Азбука от ChatGPT

14.9K views09:40

Neural Shit

Forwarded from Denis Sexy IT 🤖

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Помните я много раз постил разные примеры, где нейронку пытаются использовать вместо игрового движка? Типа обучил на игре модель, и вот универсальный движок на все случаи жизни

Го играть в нейронное GTA
(с телефона не работает управление):
https://demo.dynamicslab.ai/chaos

Еще есть нейро-гонки, выглядит перспективно, дайте поиграться 🌚

Please open Telegram to view this post

VIEW IN TELEGRAM

6.1K views13:18

Neural Shit

Ковырялся в старом жестком диске и нашел это.

В 2022 году txt2img модельки абсолютно не умели генерировать велосипеды.

Аж захотелось прямо сейчас раскатать на сервере какой-нибудь старый dalle-mini и погенерить подобного

7.7K views15:23

Neural Shit

Когда скучно, обожаю генерировать фейковые советские агитационные плакаты на разные темы.

Сегодня у нас плакаты, агитирующие сбор пупочных катышков. Как обычно, текст и сюжет для всех плакатов генерировал сам ChatGPT.

7.7K views17:29

2025/07/04 07:57:31
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>