gonzo_ML Telegram Group

В дополнение в недавнему Карпаты, вот вам ещё подборка видео на выходные:

Андрей Карпаты про Software 3.0

https://youtu.be/LCEmiRjPEtQ?si=wK51YqY68SR4UBwn

Прекрасный толк. Смотрите целиком, не ограничивайтесь слайдами!

3.8K views18:04

gonzo-обзоры ML статей

https://www.youtube.com/watch?v=cFIlta1GkiE

YouTube

Elon Musk: Digital Superintelligence, Multiplanetary Life, How to Be Useful

A fireside with Elon Musk on June 17, 2025 at AI Startup School in San Francisco.

Before rockets and robots, Elon Musk was drilling holes through his office floor to borrow internet. In this candid talk, he walks through the early days of Zip2, the Falcon…

3.8K views18:04

gonzo-обзоры ML статей

https://www.youtube.com/watch?v=V979Wd1gmTU

YouTube

Sam Altman: The Future of OpenAI, ChatGPT's Origins, and Building AI Hardware

A fireside with Sam Altman on June 16, 2025 at AI Startup School in San Francisco.

Sam Altman grew up obsessed with technology, broke into the Stanford mainframe as a kid, and dropped out to start his first company before turning 20.

In this conversation…

3.8K views18:04

gonzo-обзоры ML статей

Продолжение интересной движухи про отказ от отдельной токенизации, теперь с помощью старых добрых U-Net:

https://www.group-telegram.com/gonzo_ML.com_podcasts/322

Computer vision передаёт привет NLP :)

Ещё не до конца end-to-end, но приближаемся!

gonzo_ML_podcasts

From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, and David Lopez-Paz
Статья: https://arxiv.org/abs/2506.14761
Код: https://github.com/facebookresear…

3.5K views10:23

gonzo-обзоры ML статей

Это прекрасно! Были базовые эксперты в MoE, а теперь brain-inspired специализированные эксперты по логике, языку, социальным делам и модели мира.

3.0K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Zeming Chen, Martin Schrimpf, Antoine Bosselut
Paper: https://arxiv.org/abs/2506.13331
Code: https://bkhmsi.github.io/mixture-of-cog-reasoners

# TL;DR

Что сделали?
Авторы представили архитектуру Mixture of Cognitive Reasoners (MICRO) — модульную языковую модель, вдохновлённую функциональной специализацией человеческого мозга. Они разделили слои предобученного трансформера на четыре отдельных модуля-«эксперта»: Language (Язык), Logic (Логика), Social (Социальное взаимодействие) и World (Знания о мире), каждый из которых соответствует хорошо изученной когнитивной сети мозга. Специализация прививается и поддерживается с помощью новой трёхэтапной программы обучения. Она начинается с предобучения экспертов на небольшом, тщательно отобранном датасете для внедрения целевых индуктивных смещений (inductive biases), а затем следует полномасштабное сквозное дообучение.

Почему это важно?
Эта работа предлагает интересную альтернативу монолитным LLM в формате «чёрного ящика». Благодаря явному проектированию под специализацию, MICRO достигает значительных успехов в интерпретируемости, управляемости и производительности. Модель демонстрирует прозрачные паттерны маршрутизации, позволяя исследователям видеть, *как* она рассуждает. Её поведением можно управлять во время инференса, выборочно активируя или отключая модули-эксперты. Важно отметить, что этот структурированный подход превосходит сопоставимые неспециализированные бейзлайны в нескольких бенчмарках на рассуждения. Это показывает, что дизайн, вдохновлённый биологией, — не просто архитектурная новинка, а практический путь к созданию более прозрачных, надёжных и когнитивно-обоснованных систем ИИ.

# Мясо 🍖

🧠 Шаг к когнитивно-обоснованному ИИ

Главная проблема современных больших языковых моделей (LLM) — их непрозрачность. При всех своих впечатляющих возможностях, их внутренние механизмы остаются «чёрным ящиком», что мешает понимать, предсказывать и контролировать процессы рассуждений. Недавняя статья представляет фреймворк Mixture of Cognitive Reasoners (MICRO) — новый подход, который решает эту проблему, черпая вдохновение непосредственно из самого сложного известного нам механизма рассуждений: человеческого мозга. Основная идея состоит в том, чтобы отойти от монолитных архитектур и вместо этого создавать модели, которые явно отражают функциональную специализацию мозга, где отдельные сети обрабатывают конкретные когнитивные задачи.

⚙️ Методология: создание специализации по образу и подобию мозга

Архитектура MICRO одновременно и элегантна, и интуитивно понятна. За основу берётся стандартный предобученный трансформер (например, из серии Llama 3 или OLMo), и его слои разделяются на четыре отдельных модуля-эксперта: Language, Logic (соответствует Multiple Demand Network в мозге), Social (Theory of Mind Network) и World (Default Mode Network). Это ключевое отличие от стандартных архитектур Mixture-of-Experts (MoE), которые обычно используют гораздо более простые эксперты, состоящие только из feed-forward сетей. В MICRO каждый эксперт получает полный блок трансформера, включая собственный механизм self-attention. Это позволяет каждому специализированному модулю обрабатывать информацию и обращать на неё внимание своим уникальным способом, что обеспечивает более мощную форму специализации.

Что действительно выделяет эту работу, так это трёхэтапная программа обучения, разработанная для целенаправленного *внедрения* этой специализации:

2.5K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом, специально подобранном датасете D_experts всего из 3000 с небольшим примеров. Этот датасет тщательно составлен с использованием мощных моделей, таких как O1 от OpenAI и GPT-4o, для генерации и псевдоразметки пошаговых цепочек рассуждений. Поразительно, какое влияние оказывает этот крошечный датасет. Тот факт, что специализированное «зерно», посеянное с помощью такого малого количества примеров, не только выживает, но и процветает после сквозного обучения на огромном корпусе из ~939 тыс. примеров, подчёркивает силу целенаправленных индуктивных смещений. Это наводит на мысль, что путь к лучшим моделям может лежать не только через увеличение объёма данных, но и через *более умные* данные.

2. Этап 2: Обучение роутера. Уже специализированные эксперты замораживаются, и на том же датасете D_experts обучается только роутер, чтобы он научился эффективно делегировать задачи.

3. Этап 3: Сквозное дообучение. Вся модель дообучается на крупномасштабном корпусе для instruction-tuning, таком как TÜLU-3. Ключевой вывод заключается в том, что специализация, заложенная на начальных этапах, не только сохраняется, но и усиливается, демонстрируя надёжность подхода.

🔬 Экспериментальные результаты: прорывы структурированного подхода

Эксперименты в статье наглядно демонстрируют преимущества этого вдохновлённого мозгом подхода, показывая три ключевых прорыва.

📈 Победа в производительности: специализация ведёт к более умной модели
Структура, подобная мозгу, — это не просто интеллектуальное любопытство, она напрямую ведёт к созданию более способной модели. Специализированная модель MICRO стабильно превосходит своих неспециализированных аналогов, включая как стандартные плотные модели («No Experts»), так и модульные модели с экспертами общего назначения («General»). Например, модель MICRO на базе OLMO-2-1B достигла среднего балла 38.7 на наборе из семи бенчмарков на рассуждения, превзойдя плотный (37.7) и модульный (37.6) бейзлайны. Это преимущество в производительности сохраняется даже при дообучении на данных из конкретной области, с особенно сильным приростом в out-of-distribution сценариях, что доказывает — структурированный дизайн приводит к ощутимым улучшениям.

🔍 Окно в разум машины: делаем рассуждения прозрачными
MICRO делает значительный шаг в сторону от парадигмы «чёрного ящика». Паттерны маршрутизации модели предоставляют ясное окно в её процесс рассуждения, позволяя нам буквально «наблюдать, как модель думает». На математических задачах токены предсказуемо направляются к эксперту Logic, в то время как на задачах, требующих социального понимания, активно задействуется эксперт Social. Для проверки этого авторы использовали остроумную технику, адаптированную из когнитивной нейронауки. Эти «локализаторы» — работающие как целевое фМРТ для языковых моделей, используя контрастные входные данные для выявления избирательно активированных юнитов — успешно обнаружили соответствующие модули-эксперты в модели. Это веское подтверждение того, что специализация модели — не просто ярлык, а функциональная реальность.

🕹 ИИ с панелью управления: направляем поведение по желанию
Модульная конструкция даёт беспрецедентный уровень контроля во время инференса. Выборочно отключая (проводя абляцию) определённых экспертов, можно эффективно управлять поведением модели. Например, удаление эксперта Logic резко снижает производительность на математических задачах, в то время как удаление эксперта Social может, как ни странно, дать небольшой прирост в этих же контекстах, что подтверждает их различные функциональные роли. Качественные примеры наглядно иллюстрируют это «управление», показывая, как ответ модели на один и тот же промпт можно сместить от аналитического к эмпатическому, просто сохраняя разные наборы экспертов. Это превращает ИИ из пассивного генератора в интерактивного, управляемого партнёра по рассуждениям.

1.9K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🤔 Ограничения и будущие направления

Авторы откровенно говорят о текущих ограничениях. Исследование проводилось на моделях с 1 млрд параметров, и остаётся открытым вопрос, будут ли эти преимущества масштабироваться на более крупные архитектуры. Создание первоначального датасета D_experts также зависит от мощных моделей-учителей, что усложняет процесс обучения.

Авторы намечают и несколько интересных направлений для будущей работы. Они включают расширение фреймворка на новые когнитивные области, исследование более гранулярного «мягкого» контроля над активацией экспертов и дальнейшее изучение соответствия между внутренними представлениями модели и реальной нейронной активностью человека.

🏁 Заключение

В заключение, эта работа — не просто очередное улучшение существующих архитектур. Она предлагает отойти от парадигмы создания всё более крупных монолитных LLM в пользу продуманной, вдохновлённой биологией альтернативы. Фреймворк Mixture of Cognitive Reasoners (MICRO) демонстрирует, что, явно структурируя модели для отражения когнитивных функций человека, мы можем достичь ощутимых успехов в производительности, интерпретируемости и управляемости. Эта работа не только предоставляет практическую методологию для создания лучших систем ИИ, но и углубляет связь между искусственным интеллектом и когнитивной нейронаукой, прокладывая путь к моделям, которые не просто вычисляют, а рассуждают так, как мы наконец-то можем начать понимать.

arXiv.org

Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like...

Human intelligence emerges from the interaction of specialized brain networks, each dedicated to distinct cognitive functions such as language processing, logical reasoning, social understanding,...

2.1K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.8K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.9K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.9K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.0K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.1K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.3K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.5K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.9K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.2K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.4K views13:46

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.6K views13:46

gonzo-обзоры ML статей

Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах учителей, надо RL-ом обучать учителей давать более полезные объяснения. Снова Sakana!

https://www.group-telegram.com/gonzo_ML.com_podcasts/345

gonzo_ML_podcasts

Reinforcement Learning Teachers of Test Time Scaling
Edoardo Cetin, Tianyu Zhao, Yujin Tang
Статья: https://arxiv.org/abs/2506.08388
Код: https://github.com/SakanaAI/RLT

# TL;DR

Что сделали?
В статье представлен новый фреймворк для обучения учителей на…

3.5K viewsedited 19:40

2025/06/24 20:36:53
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>