🔥 Разбор того, как Mixture-of-Experts (MoE) LLM можно сделать реально дешёвыми, если подогнать архитектуру под железо.
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
В чём проблема
- MoE включает только часть экспертов на токен → экономия compute.
- Но при больших batch size растут коммуникации и память:
- больше экспертов грузится,
- KV-кэш раздувается,
- узким местом становится память и сеть.
Решение - expert parallelism
- Эксперты размазаны по многим GPU.
- Токен идёт к top-N экспертам + shared-эксперт.
- В DeepSeek: 8 экспертов из 256 на слой × 58 слоёв.
Чтобы справиться с коммуникациями:
- внимание остаётся data parallel (кэш сидит на одном GPU),
- гоняются только маленькие вектора активаций,
- два микробатча: один считает, другой общается,
- горячие эксперты дублируются,
- токены стараются держать экспертов в пределах одного узла.
Оптимизации
- multi-head latent attention → сжатие KV-кэша до ~70KB вместо сотен KB.
- перестройка математики внимания → меньше вычислений при длинных контекстах.
- prefill и decode разделены, кэш даёт ~56% хитов → меньше затрат.
Экономика
- Стоимость = $/GPU-час ÷ токены/час.
- Дешевле при больших batch size, быстрых interconnect, большем числе GPU.
- Но если сервис обещает 20 токенов/сек на юзера → батчи меньше, цена выше.
Практика
- NVLink кластеры масштабируются отлично.
- InfiniBand между DGX - bottleneck.
- 72 GPU при batch 64 → миллиарды токенов в день за ~$0.40 / 1M токенов.
Итог
MoE становятся дёшевыми при:
- больших батчах,
- сжатом KV-кэше,
- грамотном роутинге,
- разделении префилла и декода,
- быстрых interconnect.
Это даёт гибкость: быстрый чат продаётся дороже, а bulk-генерация (синтетика, fine-tune) идёт почти по себестоимости.
https://www.tensoreconomics.com/p/moe-inference-economics-from-first
👍3❤2
Forwarded from Машинное обучение digest
Главная идея книги - показать, почему и как глубокие нейросети учатся извлекать сжатые, информативные представления сложных данных, и что у них внутри:
📖 Читать онлайн: ma-lab-berkeley.github.io/deep-representation-learning-book
@ai_machinelearning_big_data
#book #deeplearning #representationlearning #ucberkeley #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Исследование, в котором анализирует феномен Neuro-sama – виртуального стримера, полностью управляемого крупной языковой моделью.
Neuro-sama ведёт трансляции от лица анимированного аватара, общаясь с чатом в реальном времени без участия человека.
Исследователи использовали опросы, интервью и анализ логов чата, чтобы понять, как зрители открывают для себя ИИ-стримера, почему остаются и как формируется эмоциональная связь.
- Зрители приходят из любопытства: их привлекает новизна, скорость ответов и непредсказуемость поведения ИИ.
- Они остаются из-за эмоциональных моментов, которые создают чувство общности и групповую идентичность вокруг персонажа.
- Несмотря на осознание, что это программа, фанаты общаются с ИИ как с живым существом, формируя социальную привязанность.
- Для зрителей аутентичность = стабильность, а не человечность. Последовательное поведение и узнаваемая личность важнее реалистичных эмоций.
- В чате преобладают прямые вопросы и команды, превращая стрим в интерактивный тест ИИ.
- 85% платных сообщений используются, чтобы направлять поведение Neuro-sama, делая зрителей соавторами контента.
Основная дилемма:
Создателям нужно сохранять устойчивый характер персонажа, но при этом давать пространство для импровизации и неожиданности.
Слишком предсказуемый ИИ теряет интерес, но слишком изменчивый разрушает ощущение «личности».
В итоге такие проекты показывают, как человеческое восприятие аутентичности постепенно адаптируется: нам всё меньше нужна «реальность», и всё больше – постоянство и вовлечённость, даже если источник этой личности — алгоритм.
📌 Подробнее: https://arxiv.org/abs/2509.10427
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2
🧠 LLM не как компилятор, а как архитектор?
Можно ли заставить LLM превратить макет из Figma в рабочий UI-код? Ребята из Яндекс Go взялись за эту задачу и написали отличный отчёт о своём пути.
🤯 Они честно рассказывают о провалах: от промпта на 400к токенов, который не влезал в контекст, до чёрного ящика Agent IDE и сложного RAG-конвейера с циклом обратной связи.
В итоге они пришли к элегантному решению: перестали требовать от модели идеальный синтаксис. LLM теперь генерирует описание интерфейса на простом YAML, а детерминированный транслятор превращает его в 100% компилируемый код.
Это крутая инженерная история о том, как найти предел возможностей LLM и обойти его с помощью системного дизайна.
Читайте статью здесь
Можно ли заставить LLM превратить макет из Figma в рабочий UI-код? Ребята из Яндекс Go взялись за эту задачу и написали отличный отчёт о своём пути.
🤯 Они честно рассказывают о провалах: от промпта на 400к токенов, который не влезал в контекст, до чёрного ящика Agent IDE и сложного RAG-конвейера с циклом обратной связи.
В итоге они пришли к элегантному решению: перестали требовать от модели идеальный синтаксис. LLM теперь генерирует описание интерфейса на простом YAML, а детерминированный транслятор превращает его в 100% компилируемый код.
Это крутая инженерная история о том, как найти предел возможностей LLM и обойти его с помощью системного дизайна.
Читайте статью здесь
❤3
Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.
С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.
Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.
Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.
Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления
Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.
Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.
Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.
Подробнее - arxiv.org/abs/2509.26626
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
10 докладов о разработке и применении ML из первых уст ☄️
Зовём посмотреть выступления специалистов по ML: инженеры и техлиды Авито рассказали, как они работают с нейросетями, и поделились внутренней кухней.
Вот о чём говорили:
➡️ как создавали языковые и мультимодальные модели;
➡️ как формировали свои датасеты;
➡️ как обучали модели корректно работать с русским языком;
➡️ как применяли результаты в продуктах компании.
Кстати, на конференции рассказывали не только про модельки. Новоиспечённые мидлы делились, как проходили стажировку в DS-департаменте и как росли. А мастера и гранд-мастера Kaggle обсуждали мифы о соревновательном ML.
Собрали и кратенько описали 10 выступлений. Заходите на Хабр и выбирайте, что хотите посмотреть.
👀 Изучить, чего там наговорили такого интересного
Зовём посмотреть выступления специалистов по ML: инженеры и техлиды Авито рассказали, как они работают с нейросетями, и поделились внутренней кухней.
Вот о чём говорили:
Кстати, на конференции рассказывали не только про модельки. Новоиспечённые мидлы делились, как проходили стажировку в DS-департаменте и как росли. А мастера и гранд-мастера Kaggle обсуждали мифы о соревновательном ML.
Собрали и кратенько описали 10 выступлений. Заходите на Хабр и выбирайте, что хотите посмотреть.
👀 Изучить, чего там наговорили такого интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 NVIDIA: обучай рассуждать с самого начала
Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.
📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%
🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.
🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.
📄 arxiv: https://arxiv.org/abs/2510.03264
Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.
📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%
🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.
🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.
📄 arxiv: https://arxiv.org/abs/2510.03264
❤7👍1
Forwarded from Machinelearning
Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API.
Внутри - десятки реальных примеров с разборами:
▪ Работа с изображениями и рассуждение по ним
▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent)
▪ Мультимодальное программирование
▪ Распознавание объектов и сцен (Omni Recognition)
▪ Продвинутое извлечение данных из документов
▪ Точное определение объектов на изображении
▪ OCR и извлечение ключевой информации
▪ 3D-анализ и привязка объектов
▪ Понимание длинных документов
▪ Пространственное рассуждение
▪ Мобильный агент
▪ Анализ и понимание видео
@ai_machinelearning_big_data
#Qwen #Qwen3VL #AI #VisionLanguage #Multimodal #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1