Группа инженеров из Google DeepMind опубликовали 12-ю главу своего он-лайн учебника "How to Scale Your Model: A Systems View of LLMs on TPUs"
How to Scale Your Model - практико-ориентированное руководство по масштабированию LLM из 12 разделов для разработчиков и исследователей. Оно объясняет, как анализировать и оптимизировать производительность модели, учитывая системные ресурсы: вычисления, память и пропускную способность.
Пособие научит выбирать оптимальные стратегии параллелизма, оценивать стоимость и время обучения и инференса, а также глубже понять взаимодействие между TPU/GPU и алгоритмами масштабирования как на одном, так и на тысячах ускорителей.
12-я глава - глубокое техническое руководство по архитектуре GPU и стратегиям масштабирования больших моделей. В ней детально разбирается устройство современных GPU NVIDIA: Streaming Multiprocessors, Tensor Cores, иерархия памяти (HBM, L2, SMEM), все это с подробными сравнительными таблицами характеристик для разных поколений чипов.
Очень подробно выполнено сравнение архитектур GPU и TPU, с объясняем ключевого различия между модульностью GPU и монолитностью TPU.
Особое внимание, что редкость для обучающих материалов, уделено сетевой организации кластеров. Авторы доступно объясняют как GPU соединяются внутри узлов через NVLink/NVSwitch и между узлами через InfiniBand в топологии "Fat tree", и как пропускная способность на каждом уровне влияет на реальную производительность коллективных операций (AllReduce, AllGather).
Описаны основные стратегии параллелизма: Data Parallelism, Tensor Parallelism, Expert Parallelism и Pipeline Parallelism, с разбором их ограничений и примеров из реальных проектов.
В конце главы есть хороший анализ новых возможностей архитектуры Blackwell.
@ai_machinelearning_big_data
#AI #ML #LLM #Scaling #GPU #TPU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69❤40🔥19🥰6
🦎 Эволюция ИИ моделей, вдохновленная природой
В Sakana AI предложили новый подход: развивать ИИ не как один гигантский «мозг», а как экосистему моделей, которые конкурируют, объединяются и обмениваются навыками.
Этот метод они назвали M2N2 (Model Merging of Natural Niches).
🔑 Как это работает
- Гибкие границы слияния — модели объединяются не фиксированными слоями, а переменными кусками параметров, как будто меняются фрагментами ДНК.
- Конкуренция за данные — модели соревнуются за ограниченные ресурсы и становятся «экспертами» в узких областях.
- Выбор партнёров — для объединения подбираются те модели, которые дополняют друг друга: одна сильна там, где другая слаба.
📊 Чего удалось добиться
- С нуля: только слиянием случайных сетей удалось получить классификатор MNIST, сравнимый с классическими эволюционными методами, но быстрее и дешевле.
- Крупные LLM: объединение модели-«математика» и модели-«агента» породило систему, которая уверенно справляется с обоими типами задач.
- Мультимодальные модели: при слиянии text-to-image моделей для японского итоговая версия стала лучше понимать японские запросы и при этом сохранила сильный английский — без «забывания» старых навыков.
Этот подход показывает, что будущее ИИ может быть не за одним огромным монолитом, а за живой экосистемой специализированных моделей, которые эволюционируют вместе, обмениваются сильными сторонами и становятся более гибкими и креативными.
🟠 Paper: https://arxiv.org/abs/2508.16204
🟠 Code: https://github.com/SakanaAI/natural_niches
@ai_machinelearning_big_data
В Sakana AI предложили новый подход: развивать ИИ не как один гигантский «мозг», а как экосистему моделей, которые конкурируют, объединяются и обмениваются навыками.
Этот метод они назвали M2N2 (Model Merging of Natural Niches).
🔑 Как это работает
- Гибкие границы слияния — модели объединяются не фиксированными слоями, а переменными кусками параметров, как будто меняются фрагментами ДНК.
- Конкуренция за данные — модели соревнуются за ограниченные ресурсы и становятся «экспертами» в узких областях.
- Выбор партнёров — для объединения подбираются те модели, которые дополняют друг друга: одна сильна там, где другая слаба.
📊 Чего удалось добиться
- С нуля: только слиянием случайных сетей удалось получить классификатор MNIST, сравнимый с классическими эволюционными методами, но быстрее и дешевле.
- Крупные LLM: объединение модели-«математика» и модели-«агента» породило систему, которая уверенно справляется с обоими типами задач.
- Мультимодальные модели: при слиянии text-to-image моделей для японского итоговая версия стала лучше понимать японские запросы и при этом сохранила сильный английский — без «забывания» старых навыков.
Этот подход показывает, что будущее ИИ может быть не за одним огромным монолитом, а за живой экосистемой специализированных моделей, которые эволюционируют вместе, обмениваются сильными сторонами и становятся более гибкими и креативными.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤85👍32🔥14🤔4😁2❤🔥1💘1
Media is too big
VIEW IN TELEGRAM
VibeVoice - опенсорсная система синтеза речи на английском и китайском языках для создания выразительного аудиоконтента длиной до 90 минут с участием до 4 различных спикеров.
В системе используются непрерывные токенизаторы речи на сверхнизкой частоте 7.5 Гц и комбинация из LLM для понимания контекста и диффузионная модель для генерации высококачественного аудио.
Код для инференса уже доступен на GitHub, а модель на 1.5 млрд. параметров и токенизатор - на Hugging Face. Обещают более крупную (7B) и компактную (0.5B) версии модели.
microsoft.github.io
Теперь возможность превращать загруженные документы и заметки в короткие видеопрезентации доступна на 80 языках, включая русский. Ранее функция работала только на английском.
Одновременно компания улучшила и Audio Overviews, позволив создавать более длинные и детализированные аудиосводки на разных языках.
Оба обновления уже начали развертываться и, по заявлению Google, станут доступны всем пользователям по всему миру в течение недели.
blog.google
Jetson AGX Thor - наиболее производительный на сегодняшний день компьютер для периферийных ИИ-вычислений и робототехники. Платформа обещает производительность в 2070 терафлопс (FP4), что примерно в 7.5 раз превосходит предыдущее поколение Jetson Orin.
В основе системы - GPU на архитектуре Blackwell, 14-ядерный процессор Arm и 128 ГБ памяти LPDDR5X. Это позволяет запускать большие языковые и мультимодальные модели локально, обрабатывая данные с нескольких сенсоров с минимальной задержкой. Платформа совместима с программными стеками Nvidia: Isaac, Metropolis и Holoscan.
Набор для разработчиков уже доступен для заказа по цене $3499, а поставки начнутся в следующем месяце. Серийные модули Jetson T5000 для готовых роботов появятся в конце 2025 года по цене $2999 за штуку при заказе от 1000 единиц.
cnbc.com
xAI и X подали в федеральный суд США антимонопольный иск на сумму 1 млрд. долларов против Apple и OpenAI. В иске утверждается, что компании вступили в незаконный сговор с целью захвата рынков смартфонов и генеративного ИИ, нарушая антимонопольное законодательство США.
Согласно 61-страничному документу, эксклюзивная интеграция ChatGPT в iOS и манипуляции с ранжированием в App Store целенаправленно занижают позиции конкурирующих чат-ботов. Это, по мнению Маска, делает "невозможным для любой другой ИИ-компании, кроме OpenAI, достичь первого места в магазине приложений".
В Apple отказались от комментариев. В OpenAI назвали иск "продолжением систематических нападок со стороны господина Маска".
wsj.com
Проблема, по словам Brave, заключается в так называемых "непрямых инъекциях промптов". Злоумышленники могут встраивать вредоносные команды в веб-страницы, которые ИИ-ассистент Comet при анализе контента воспринимает как инструкции от пользователя.
В ходе тестов Brave продемонстрировала, как можно заставить Comet прочитать и отправить атакующим конфиденциальные данные, email-адреса и одноразовые пароли. Perplexity выпустила обновления, однако, проблема все еще не решена полностью.
brave.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍16🔥6👀2
📌Приглашаем вас на три бесплатных вебинара курса «ML для финансового анализа»
💎Вебинар №1: «Инструменты тестирования торговых стратегий»
⏰ 27 августа в 20:00 мск
🔹На вебинаре:
- Познакомитесь с инструментами для backtesting’а: от pandas до backtrader и backtesting.
-Узнаете про метрики оценки: доходность, просадка, Sharpe ratio
- Покажем ошибки при тестировании и как их избежать.
- Практика по тестированию простой стратегии и анализу ее метрик.
💎Вебинар №2: «Введение в технический анализ: построение торговой стратегии»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
-Узнаете архитектурное решение локального торгового робота
- Познакомитесь с понятием технического анализа
- Практика с актуальными инструментами
- Построения индикаторов на практике
- Первая стратегия на тех. анализе
💎Вебинар №3: «Работа с торговой площадкой ByBit»
⏰ 17 сентября в 20:00 мск
🔹На вебинаре:
- Обзор возможностей платформы ByBit: типы ордеров, торговые пары.
- Разбор основных принципов работы с API ByBit: авторизация, получение котировок, выставление ордеров.
- Напишем простой торговый скрипт на Python и протестируем его на демо-аккаунте.
🎁Участники вебинаров получат подарки на почту
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
💎Вебинар №1: «Инструменты тестирования торговых стратегий»
⏰ 27 августа в 20:00 мск
🔹На вебинаре:
- Познакомитесь с инструментами для backtesting’а: от pandas до backtrader и backtesting.
-Узнаете про метрики оценки: доходность, просадка, Sharpe ratio
- Покажем ошибки при тестировании и как их избежать.
- Практика по тестированию простой стратегии и анализу ее метрик.
💎Вебинар №2: «Введение в технический анализ: построение торговой стратегии»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
-Узнаете архитектурное решение локального торгового робота
- Познакомитесь с понятием технического анализа
- Практика с актуальными инструментами
- Построения индикаторов на практике
- Первая стратегия на тех. анализе
💎Вебинар №3: «Работа с торговой площадкой ByBit»
⏰ 17 сентября в 20:00 мск
🔹На вебинаре:
- Обзор возможностей платформы ByBit: типы ордеров, торговые пары.
- Разбор основных принципов работы с API ByBit: авторизация, получение котировок, выставление ордеров.
- Напишем простой торговый скрипт на Python и протестируем его на демо-аккаунте.
🎁Участники вебинаров получат подарки на почту
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤20👍6😁4🔥3🥱2🫡2👏1
По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.
Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.
При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.
Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍18🔥12😁4
✔️ Российские учёные предложили новый способ борьбы с галлюцинациями ИИ
Одна из главных проблем больших языковых моделей — они могут генерировать правдоподобные, но ложные ответы.
Исследователи из Сбера разработали метамодели, которые повышают точность обнаружения ложных ответов обучаемыми локальными моделями почти на 30% при использовании малого количества данных для обучения. На тестах подход сработал лучше, чем многие закрытые коммерческие решения: уже при обучении на 250 примерах удалось добиться результатов, сопоставимых с применением крупнейших LLM в качестве оценщиков.
Выгода очевидна — компании могут сильно сэкономить ресурсы на разметку данных, ученые получают новый инструмент для анализа больших языковых моделей, а пользователи — более точные ответы от AI-моделей.
Одна из главных проблем больших языковых моделей — они могут генерировать правдоподобные, но ложные ответы.
Исследователи из Сбера разработали метамодели, которые повышают точность обнаружения ложных ответов обучаемыми локальными моделями почти на 30% при использовании малого количества данных для обучения. На тестах подход сработал лучше, чем многие закрытые коммерческие решения: уже при обучении на 250 примерах удалось добиться результатов, сопоставимых с применением крупнейших LLM в качестве оценщиков.
Выгода очевидна — компании могут сильно сэкономить ресурсы на разметку данных, ученые получают новый инструмент для анализа больших языковых моделей, а пользователи — более точные ответы от AI-моделей.
❤66👍39🤣28🔥13🤔7😁6🤷2😢1👨💻1
Три округа во Флориде готовятся к испытаниям системы беспилотников, предназначенной для нейтрализации нападающих. Дроны, разработанные компанией Campus Guardian Angel, могут быть активированы в течение 5 секунд после сигнала тревоги и достигнуть стрелка за 15 сек.
Они оснащены шариками с перцовым спреем, чтобы ослепить или замедлить преступника, могут разбивать окна для отвлечения внимания и транслировать видео в реальном времени для правоохранителей.
По словам CEO компании, если это не поможет, дроны будут «продолжать таранить» нападающего до прибытия полиции.
Проект уже вызвал серьезные этические вопросы, касающиеся безопасности, но штат выделил на пилотный проект 557 тыс. долларов. Установка систем в школах запланирована на осень, а полноценный запуск — на январь.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤21😁19🔥10🤔3👀1🙈1
Исследователи из Yandex B2B Tech и ШАДа совместно с Педиатрическим университетом Петербурга представили первую в России нейросеть для анализа МРТ головного мозга младенцев. Модель работает в облаке и за несколько минут определяет соотношение серого и белого вещества с точностью более 90%.
Для обучения использовали 1500 обезличенных снимков и открытый датасет MICCAI Grand Challenge. Архитектура включает BIBSNet для автоматической разметки и ResNet с U-Net для сегментации изображений. Разработчики отмечают, что основной вызов был связан с малым количеством доступных данных и сложностью разметки.
Система уже проходит пилот в клинике и доступна врачам на специальной странице сервиса на платформе Yandex Cloud. В дальнейшем её планируют выложить в опенсорс, чтобы расширить возможности исследований и внедрения подобных решений в здравоохранении.
Для обучения использовали 1500 обезличенных снимков и открытый датасет MICCAI Grand Challenge. Архитектура включает BIBSNet для автоматической разметки и ResNet с U-Net для сегментации изображений. Разработчики отмечают, что основной вызов был связан с малым количеством доступных данных и сложностью разметки.
Система уже проходит пилот в клинике и доступна врачам на специальной странице сервиса на платформе Yandex Cloud. В дальнейшем её планируют выложить в опенсорс, чтобы расширить возможности исследований и внедрения подобных решений в здравоохранении.
❤75👍29🔥13😁4🤔3👀1
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации
DeepConf-low
сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%. В более консервативном режиме,
DeepConf-high
, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31🔥13👍6
This media is not supported in your browser
VIEW IN TELEGRAM
- Высокая динамическая согласованность — модель генерирует плавную и устойчивую анимацию на протяжении всего видео
- Высокое качество аудио-видео синхронизации — точное соответствие мимики и артикуляции звуку
- Контроль движения и среды через текстовые промпты — возможно задавать жесты, эмоции, фон и поведение персонажа (например, человек «идёт по рельсам», «девочка поёт под дождём», «старик играет на пианино у моря»)
- Поддержка сложных сценариев — включая движение камеры, дождь, ветер, парашют, съёмку в движущемся поезде и другие кинематографические эффекты
🖼️ + 🎵 = 🎥
Wan2.2-S2V принимает на вход одно изображение и аудиофайл, а на выходе создаёт синхронизированное видео, соответствующее заданному промпту.
📊 По результатам тестов модель демонстрирует лучшие или близкие к лучшим показатели среди конкурентов:
- FID ↓ 15.66 — высокое качество видео
- EFID ↓ 0.283 — естественность выражения лица
- CSIM ↑ 0.677 — сохранение идентичности персонажа
- Хорошие результаты на SSIM, PSNR и Sync-C подтверждают визуальную чёткость, стабильность и аудиосинхронизацию
🔓 Проект полностью открытый — исходный код, веса модели.
И судя по всему, что модель совместима с LoRA-адаптерами от Wan 2.x
@ai_machinelearning_big_data
#AI #ML #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥27❤9🏆1