В дополнение в недавнему Карпаты, вот вам ещё подборка видео на выходные:
Telegram
gonzo-обзоры ML статей
Андрей Карпаты про Software 3.0
https://youtu.be/LCEmiRjPEtQ?si=wK51YqY68SR4UBwn
Прекрасный толк. Смотрите целиком, не ограничивайтесь слайдами!
https://youtu.be/LCEmiRjPEtQ?si=wK51YqY68SR4UBwn
Прекрасный толк. Смотрите целиком, не ограничивайтесь слайдами!
Продолжение интересной движухи про отказ от отдельной токенизации, теперь с помощью старых добрых U-Net:
https://www.group-telegram.com/gonzo_ML.com_podcasts/322
Computer vision передаёт привет NLP :)
Ещё не до конца end-to-end, но приближаемся!
https://www.group-telegram.com/gonzo_ML.com_podcasts/322
Computer vision передаёт привет NLP :)
Ещё не до конца end-to-end, но приближаемся!
Telegram
gonzo_ML_podcasts
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, and David Lopez-Paz
Статья: https://arxiv.org/abs/2506.14761
Код: https://github.com/facebookresear…
Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, and David Lopez-Paz
Статья: https://arxiv.org/abs/2506.14761
Код: https://github.com/facebookresear…
Это прекрасно! Были базовые эксперты в MoE, а теперь brain-inspired специализированные эксперты по логике, языку, социальным делам и модели мира.
Forwarded from gonzo_ML_podcasts
Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Zeming Chen, Martin Schrimpf, Antoine Bosselut
Paper: https://arxiv.org/abs/2506.13331
Code: https://bkhmsi.github.io/mixture-of-cog-reasoners
# TL;DR
Что сделали?
Авторы представили архитектуру Mixture of Cognitive Reasoners (MICRO) — модульную языковую модель, вдохновлённую функциональной специализацией человеческого мозга. Они разделили слои предобученного трансформера на четыре отдельных модуля-«эксперта»: Language (Язык), Logic (Логика), Social (Социальное взаимодействие) и World (Знания о мире), каждый из которых соответствует хорошо изученной когнитивной сети мозга. Специализация прививается и поддерживается с помощью новой трёхэтапной программы обучения. Она начинается с предобучения экспертов на небольшом, тщательно отобранном датасете для внедрения целевых индуктивных смещений (inductive biases), а затем следует полномасштабное сквозное дообучение.
Почему это важно?
Эта работа предлагает интересную альтернативу монолитным LLM в формате «чёрного ящика». Благодаря явному проектированию под специализацию, MICRO достигает значительных успехов в интерпретируемости, управляемости и производительности. Модель демонстрирует прозрачные паттерны маршрутизации, позволяя исследователям видеть, *как* она рассуждает. Её поведением можно управлять во время инференса, выборочно активируя или отключая модули-эксперты. Важно отметить, что этот структурированный подход превосходит сопоставимые неспециализированные бейзлайны в нескольких бенчмарках на рассуждения. Это показывает, что дизайн, вдохновлённый биологией, — не просто архитектурная новинка, а практический путь к созданию более прозрачных, надёжных и когнитивно-обоснованных систем ИИ.
# Мясо 🍖
🧠 Шаг к когнитивно-обоснованному ИИ
Главная проблема современных больших языковых моделей (LLM) — их непрозрачность. При всех своих впечатляющих возможностях, их внутренние механизмы остаются «чёрным ящиком», что мешает понимать, предсказывать и контролировать процессы рассуждений. Недавняя статья представляет фреймворк Mixture of Cognitive Reasoners (MICRO) — новый подход, который решает эту проблему, черпая вдохновение непосредственно из самого сложного известного нам механизма рассуждений: человеческого мозга. Основная идея состоит в том, чтобы отойти от монолитных архитектур и вместо этого создавать модели, которые явно отражают функциональную специализацию мозга, где отдельные сети обрабатывают конкретные когнитивные задачи.
⚙️ Методология: создание специализации по образу и подобию мозга
Архитектура MICRO одновременно и элегантна, и интуитивно понятна. За основу берётся стандартный предобученный трансформер (например, из серии Llama 3 или OLMo), и его слои разделяются на четыре отдельных модуля-эксперта: Language, Logic (соответствует Multiple Demand Network в мозге), Social (Theory of Mind Network) и World (Default Mode Network). Это ключевое отличие от стандартных архитектур Mixture-of-Experts (MoE), которые обычно используют гораздо более простые эксперты, состоящие только из feed-forward сетей. В MICRO каждый эксперт получает полный блок трансформера, включая собственный механизм self-attention. Это позволяет каждому специализированному модулю обрабатывать информацию и обращать на неё внимание своим уникальным способом, что обеспечивает более мощную форму специализации.
Что действительно выделяет эту работу, так это трёхэтапная программа обучения, разработанная для целенаправленного *внедрения* этой специализации:
Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Zeming Chen, Martin Schrimpf, Antoine Bosselut
Paper: https://arxiv.org/abs/2506.13331
Code: https://bkhmsi.github.io/mixture-of-cog-reasoners
# TL;DR
Что сделали?
Авторы представили архитектуру Mixture of Cognitive Reasoners (MICRO) — модульную языковую модель, вдохновлённую функциональной специализацией человеческого мозга. Они разделили слои предобученного трансформера на четыре отдельных модуля-«эксперта»: Language (Язык), Logic (Логика), Social (Социальное взаимодействие) и World (Знания о мире), каждый из которых соответствует хорошо изученной когнитивной сети мозга. Специализация прививается и поддерживается с помощью новой трёхэтапной программы обучения. Она начинается с предобучения экспертов на небольшом, тщательно отобранном датасете для внедрения целевых индуктивных смещений (inductive biases), а затем следует полномасштабное сквозное дообучение.
Почему это важно?
Эта работа предлагает интересную альтернативу монолитным LLM в формате «чёрного ящика». Благодаря явному проектированию под специализацию, MICRO достигает значительных успехов в интерпретируемости, управляемости и производительности. Модель демонстрирует прозрачные паттерны маршрутизации, позволяя исследователям видеть, *как* она рассуждает. Её поведением можно управлять во время инференса, выборочно активируя или отключая модули-эксперты. Важно отметить, что этот структурированный подход превосходит сопоставимые неспециализированные бейзлайны в нескольких бенчмарках на рассуждения. Это показывает, что дизайн, вдохновлённый биологией, — не просто архитектурная новинка, а практический путь к созданию более прозрачных, надёжных и когнитивно-обоснованных систем ИИ.
# Мясо 🍖
🧠 Шаг к когнитивно-обоснованному ИИ
Главная проблема современных больших языковых моделей (LLM) — их непрозрачность. При всех своих впечатляющих возможностях, их внутренние механизмы остаются «чёрным ящиком», что мешает понимать, предсказывать и контролировать процессы рассуждений. Недавняя статья представляет фреймворк Mixture of Cognitive Reasoners (MICRO) — новый подход, который решает эту проблему, черпая вдохновение непосредственно из самого сложного известного нам механизма рассуждений: человеческого мозга. Основная идея состоит в том, чтобы отойти от монолитных архитектур и вместо этого создавать модели, которые явно отражают функциональную специализацию мозга, где отдельные сети обрабатывают конкретные когнитивные задачи.
⚙️ Методология: создание специализации по образу и подобию мозга
Архитектура MICRO одновременно и элегантна, и интуитивно понятна. За основу берётся стандартный предобученный трансформер (например, из серии Llama 3 или OLMo), и его слои разделяются на четыре отдельных модуля-эксперта: Language, Logic (соответствует Multiple Demand Network в мозге), Social (Theory of Mind Network) и World (Default Mode Network). Это ключевое отличие от стандартных архитектур Mixture-of-Experts (MoE), которые обычно используют гораздо более простые эксперты, состоящие только из feed-forward сетей. В MICRO каждый эксперт получает полный блок трансформера, включая собственный механизм self-attention. Это позволяет каждому специализированному модулю обрабатывать информацию и обращать на неё внимание своим уникальным способом, что обеспечивает более мощную форму специализации.
Что действительно выделяет эту работу, так это трёхэтапная программа обучения, разработанная для целенаправленного *внедрения* этой специализации:
Forwarded from gonzo_ML_podcasts
1. Этап 1: Предобучение экспертов. Эксперты предобучаются на небольшом, специально подобранном датасете
2. Этап 2: Обучение роутера. Уже специализированные эксперты замораживаются, и на том же датасете
3. Этап 3: Сквозное дообучение. Вся модель дообучается на крупномасштабном корпусе для instruction-tuning, таком как TÜLU-3. Ключевой вывод заключается в том, что специализация, заложенная на начальных этапах, не только сохраняется, но и усиливается, демонстрируя надёжность подхода.
🔬 Экспериментальные результаты: прорывы структурированного подхода
Эксперименты в статье наглядно демонстрируют преимущества этого вдохновлённого мозгом подхода, показывая три ключевых прорыва.
📈 Победа в производительности: специализация ведёт к более умной модели
Структура, подобная мозгу, — это не просто интеллектуальное любопытство, она напрямую ведёт к созданию более способной модели. Специализированная модель MICRO стабильно превосходит своих неспециализированных аналогов, включая как стандартные плотные модели («No Experts»), так и модульные модели с экспертами общего назначения («General»). Например, модель MICRO на базе OLMO-2-1B достигла среднего балла 38.7 на наборе из семи бенчмарков на рассуждения, превзойдя плотный (37.7) и модульный (37.6) бейзлайны. Это преимущество в производительности сохраняется даже при дообучении на данных из конкретной области, с особенно сильным приростом в out-of-distribution сценариях, что доказывает — структурированный дизайн приводит к ощутимым улучшениям.
🔍 Окно в разум машины: делаем рассуждения прозрачными
MICRO делает значительный шаг в сторону от парадигмы «чёрного ящика». Паттерны маршрутизации модели предоставляют ясное окно в её процесс рассуждения, позволяя нам буквально «наблюдать, как модель думает». На математических задачах токены предсказуемо направляются к эксперту Logic, в то время как на задачах, требующих социального понимания, активно задействуется эксперт Social. Для проверки этого авторы использовали остроумную технику, адаптированную из когнитивной нейронауки. Эти «локализаторы» — работающие как целевое фМРТ для языковых моделей, используя контрастные входные данные для выявления избирательно активированных юнитов — успешно обнаружили соответствующие модули-эксперты в модели. Это веское подтверждение того, что специализация модели — не просто ярлык, а функциональная реальность.
🕹 ИИ с панелью управления: направляем поведение по желанию
Модульная конструкция даёт беспрецедентный уровень контроля во время инференса. Выборочно отключая (проводя абляцию) определённых экспертов, можно эффективно управлять поведением модели. Например, удаление эксперта Logic резко снижает производительность на математических задачах, в то время как удаление эксперта Social может, как ни странно, дать небольшой прирост в этих же контекстах, что подтверждает их различные функциональные роли. Качественные примеры наглядно иллюстрируют это «управление», показывая, как ответ модели на один и тот же промпт можно сместить от аналитического к эмпатическому, просто сохраняя разные наборы экспертов. Это превращает ИИ из пассивного генератора в интерактивного, управляемого партнёра по рассуждениям.
D_experts
всего из 3000 с небольшим примеров. Этот датасет тщательно составлен с использованием мощных моделей, таких как O1 от OpenAI и GPT-4o, для генерации и псевдоразметки пошаговых цепочек рассуждений. Поразительно, какое влияние оказывает этот крошечный датасет. Тот факт, что специализированное «зерно», посеянное с помощью такого малого количества примеров, не только выживает, но и процветает после сквозного обучения на огромном корпусе из ~939 тыс. примеров, подчёркивает силу целенаправленных индуктивных смещений. Это наводит на мысль, что путь к лучшим моделям может лежать не только через увеличение объёма данных, но и через *более умные* данные.2. Этап 2: Обучение роутера. Уже специализированные эксперты замораживаются, и на том же датасете
D_experts
обучается только роутер, чтобы он научился эффективно делегировать задачи.3. Этап 3: Сквозное дообучение. Вся модель дообучается на крупномасштабном корпусе для instruction-tuning, таком как TÜLU-3. Ключевой вывод заключается в том, что специализация, заложенная на начальных этапах, не только сохраняется, но и усиливается, демонстрируя надёжность подхода.
🔬 Экспериментальные результаты: прорывы структурированного подхода
Эксперименты в статье наглядно демонстрируют преимущества этого вдохновлённого мозгом подхода, показывая три ключевых прорыва.
📈 Победа в производительности: специализация ведёт к более умной модели
Структура, подобная мозгу, — это не просто интеллектуальное любопытство, она напрямую ведёт к созданию более способной модели. Специализированная модель MICRO стабильно превосходит своих неспециализированных аналогов, включая как стандартные плотные модели («No Experts»), так и модульные модели с экспертами общего назначения («General»). Например, модель MICRO на базе OLMO-2-1B достигла среднего балла 38.7 на наборе из семи бенчмарков на рассуждения, превзойдя плотный (37.7) и модульный (37.6) бейзлайны. Это преимущество в производительности сохраняется даже при дообучении на данных из конкретной области, с особенно сильным приростом в out-of-distribution сценариях, что доказывает — структурированный дизайн приводит к ощутимым улучшениям.
🔍 Окно в разум машины: делаем рассуждения прозрачными
MICRO делает значительный шаг в сторону от парадигмы «чёрного ящика». Паттерны маршрутизации модели предоставляют ясное окно в её процесс рассуждения, позволяя нам буквально «наблюдать, как модель думает». На математических задачах токены предсказуемо направляются к эксперту Logic, в то время как на задачах, требующих социального понимания, активно задействуется эксперт Social. Для проверки этого авторы использовали остроумную технику, адаптированную из когнитивной нейронауки. Эти «локализаторы» — работающие как целевое фМРТ для языковых моделей, используя контрастные входные данные для выявления избирательно активированных юнитов — успешно обнаружили соответствующие модули-эксперты в модели. Это веское подтверждение того, что специализация модели — не просто ярлык, а функциональная реальность.
🕹 ИИ с панелью управления: направляем поведение по желанию
Модульная конструкция даёт беспрецедентный уровень контроля во время инференса. Выборочно отключая (проводя абляцию) определённых экспертов, можно эффективно управлять поведением модели. Например, удаление эксперта Logic резко снижает производительность на математических задачах, в то время как удаление эксперта Social может, как ни странно, дать небольшой прирост в этих же контекстах, что подтверждает их различные функциональные роли. Качественные примеры наглядно иллюстрируют это «управление», показывая, как ответ модели на один и тот же промпт можно сместить от аналитического к эмпатическому, просто сохраняя разные наборы экспертов. Это превращает ИИ из пассивного генератора в интерактивного, управляемого партнёра по рассуждениям.
Forwarded from gonzo_ML_podcasts
🤔 Ограничения и будущие направления
Авторы откровенно говорят о текущих ограничениях. Исследование проводилось на моделях с 1 млрд параметров, и остаётся открытым вопрос, будут ли эти преимущества масштабироваться на более крупные архитектуры. Создание первоначального датасета
Авторы намечают и несколько интересных направлений для будущей работы. Они включают расширение фреймворка на новые когнитивные области, исследование более гранулярного «мягкого» контроля над активацией экспертов и дальнейшее изучение соответствия между внутренними представлениями модели и реальной нейронной активностью человека.
🏁 Заключение
В заключение, эта работа — не просто очередное улучшение существующих архитектур. Она предлагает отойти от парадигмы создания всё более крупных монолитных LLM в пользу продуманной, вдохновлённой биологией альтернативы. Фреймворк Mixture of Cognitive Reasoners (MICRO) демонстрирует, что, явно структурируя модели для отражения когнитивных функций человека, мы можем достичь ощутимых успехов в производительности, интерпретируемости и управляемости. Эта работа не только предоставляет практическую методологию для создания лучших систем ИИ, но и углубляет связь между искусственным интеллектом и когнитивной нейронаукой, прокладывая путь к моделям, которые не просто вычисляют, а рассуждают так, как мы наконец-то можем начать понимать.
Авторы откровенно говорят о текущих ограничениях. Исследование проводилось на моделях с 1 млрд параметров, и остаётся открытым вопрос, будут ли эти преимущества масштабироваться на более крупные архитектуры. Создание первоначального датасета
D_experts
также зависит от мощных моделей-учителей, что усложняет процесс обучения.Авторы намечают и несколько интересных направлений для будущей работы. Они включают расширение фреймворка на новые когнитивные области, исследование более гранулярного «мягкого» контроля над активацией экспертов и дальнейшее изучение соответствия между внутренними представлениями модели и реальной нейронной активностью человека.
🏁 Заключение
В заключение, эта работа — не просто очередное улучшение существующих архитектур. Она предлагает отойти от парадигмы создания всё более крупных монолитных LLM в пользу продуманной, вдохновлённой биологией альтернативы. Фреймворк Mixture of Cognitive Reasoners (MICRO) демонстрирует, что, явно структурируя модели для отражения когнитивных функций человека, мы можем достичь ощутимых успехов в производительности, интерпретируемости и управляемости. Эта работа не только предоставляет практическую методологию для создания лучших систем ИИ, но и углубляет связь между искусственным интеллектом и когнитивной нейронаукой, прокладывая путь к моделям, которые не просто вычисляют, а рассуждают так, как мы наконец-то можем начать понимать.
arXiv.org
Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like...
Human intelligence emerges from the interaction of specialized brain networks, each dedicated to distinct cognitive functions such as language processing, logical reasoning, social understanding,...
Назревает альтернатива дистилляции. Вместо того чтобы обучаться на аутпутах учителей, надо RL-ом обучать учителей давать более полезные объяснения. Снова Sakana!
https://www.group-telegram.com/gonzo_ML.com_podcasts/345
https://www.group-telegram.com/gonzo_ML.com_podcasts/345
Telegram
gonzo_ML_podcasts
Reinforcement Learning Teachers of Test Time Scaling
Edoardo Cetin, Tianyu Zhao, Yujin Tang
Статья: https://arxiv.org/abs/2506.08388
Код: https://github.com/SakanaAI/RLT
# TL;DR
Что сделали?
В статье представлен новый фреймворк для обучения учителей на…
Edoardo Cetin, Tianyu Zhao, Yujin Tang
Статья: https://arxiv.org/abs/2506.08388
Код: https://github.com/SakanaAI/RLT
# TL;DR
Что сделали?
В статье представлен новый фреймворк для обучения учителей на…