The Principles of Diffusion Models: From Origins to Advances
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models
Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1181
Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon
Статья: https://arxiv.org/abs/2510.21890
Ревью: https://arxiviq.substack.com/p/the-principles-of-diffusion-models
Эта 470-страничная монография представляет единую теоретическую основу для диффузионных моделей. Она показывает, что три исторически разных подхода — вариационный (например, DDPM), основанный на score-функции (например, Score SDE) и потоковый (например, Flow Matching) — математически эквивалентны. Все они сводятся к одному ключевому принципу: выучиванию зависящего от времени векторного поля для обращения фиксированного прямого процесса зашумления. Авторы показывают, что весь этот генеративный процесс управляется одним дифференциальным уравнением (Probability Flow ODE), а его согласованность гарантируется уравнением Фоккера-Планка. В работе также доказывается, что различные цели для предсказания, используемые при обучении (шум, чистые данные, score-функция или скорость), алгебраически взаимозаменяемы. Это проясняет, что их различия — вопрос реализации и стабильности, а не фундаментальных возможностей моделирования.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1181
arXiv.org
The Principles of Diffusion Models
This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas....
🔥41👍3❤1
Kimi Linear: An Expressive, Efficient Attention Architecture
https://arxiv.org/abs/2510.26692
Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.
Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.
Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1196
https://arxiv.org/abs/2510.26692
Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так.
Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule.
Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1196
arXiv.org
Kimi Linear: An Expressive, Efficient Attention Architecture
We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context,...
❤12👍6🔥5
Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.
Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1213
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Главный вклад работы — это смещение фокуса на выбор базиса как на ключевой аспект проектирования KAN. Выбор базисной функции — это не второстепенная деталь реализации, а основной механизм для введения inductive bias, определяющий такие свойства сети, как гладкость, локальность и спектральное поведение.
Обзор также предлагает практические советы в руководстве «Выбери свой KAN». Этот практический фреймворк сопоставляет характеристики задач с рекомендуемыми вариантами KAN, выбором базиса и конфигурациями обучения.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1213
Telegram
gonzo_ML_podcasts
За гранью хайпа: практическое руководство по сетям Колмогорова-Арнольда
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Ревью: https://arxiviq.substack.com/p/a…
Title: A Practitioner's Guide to Kolmogorov-Arnold Networks
Authors: Amir Noorizadegan, Sifan Wang, and Leevan Ling
Статья: https://arxiv.org/abs/2510.25781
Ревью: https://arxiviq.substack.com/p/a…
👍7❤3🤮2🔥1
Обзор трансформеров с памятью.
Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824
В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1233
Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
Authors: Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Paper: https://arxiv.org/abs/2508.10824
В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1233
arXiv.org
Memory-Augmented Transformers: A Systematic Review from...
Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they...
👍13❤1
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
👍17🤷♀7
Всё ещё кипятите?
What Really Matters in Matrix-Whitening Optimizers?
Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine
Статья: https://arxiv.org/abs/2510.25000
Код: https://github.com/kvfrans/matrix-whitening
Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening
Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор.
Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1240
What Really Matters in Matrix-Whitening Optimizers?
Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine
Статья: https://arxiv.org/abs/2510.25000
Код: https://github.com/kvfrans/matrix-whitening
Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening
Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор.
Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1240
arXiv.org
What Really Matters in Matrix-Whitening Optimizers?
A range of recent optimizers have emerged that approximate the same "matrix-whitening" transformation in various ways. In this work, we systematically deconstruct such optimizers, aiming to...
👍20❤3🔥2
Сначала рассматривали предобучение в контексте бесконечного компьюта (см. Pre-training under infinite compute, https://www.group-telegram.com/gonzo_ML.com/4038), теперь инференс. И там, и тут, выводы близкие: в любой непонятной ситуации делай ансамблирование 😁
Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091
Review: https://arxiviq.substack.com/p/best-of-asymptotic-performance-of
Code: https://github.com/jkomiyama/BoInf-code-publish
В статье представлен теоретический фреймворк "Best-of-∞", определяющий асимптотический предел производительности для стратегии best-of-N (BoN) с голосованием по большинству. Чтобы приблизиться к этому пределу с конечными ресурсами, авторы предлагают два ключевых нововведения: 1) Адаптивный алгоритм сэмплинга, который использует байесовское моделирование (в частности, фактор Байеса), чтобы динамически решать, когда прекратить генерацию ответов, тем самым оптимизируя вычислительные затраты. 2) Метод создания оптимально взвешенных ансамблей из нескольких LLM, который формулирует задачу оптимизации весов в асимптотическом пределе как решаемую задачу смешанного целочисленного линейного программирования (MILP).
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1251
Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091
Review: https://arxiviq.substack.com/p/best-of-asymptotic-performance-of
Code: https://github.com/jkomiyama/BoInf-code-publish
В статье представлен теоретический фреймворк "Best-of-∞", определяющий асимптотический предел производительности для стратегии best-of-N (BoN) с голосованием по большинству. Чтобы приблизиться к этому пределу с конечными ресурсами, авторы предлагают два ключевых нововведения: 1) Адаптивный алгоритм сэмплинга, который использует байесовское моделирование (в частности, фактор Байеса), чтобы динамически решать, когда прекратить генерацию ответов, тем самым оптимизируя вычислительные затраты. 2) Метод создания оптимально взвешенных ансамблей из нескольких LLM, который формулирует задачу оптимизации весов в асимптотическом пределе как решаемую задачу смешанного целочисленного линейного программирования (MILP).
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1251
Telegram
gonzo_ML_podcasts
Best-of-Infinity: Принципиальный подход к максимизации производительности LLM во время инференса
Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091…
Title: Best-of-∞ - Asymptotic Performance of Test-Time Compute
Authors: Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
Paper: https://arxiv.org/abs/2509.21091…
👍3🤔2❤1
Классно, когда на Arxiv публикуют sci-fi.
Была летом практическая работа про Context Engineering ("A Survey of Context Engineering for Large Language Models", https://arxiv.org/abs/2507.13334, ревью) на 166 страниц с описанием всех актуальных на тот момент практик. Теперь прилетела работа футуристическая ("Context Engineering 2.0: The Context of Context Engineering", https://arxiv.org/abs/2510.26493, ревью). Эта на скромные 28 страниц, зато какие!
В этой статье «инженерия контекста» рассматривается не как недавний тренд эпохи LLM, а как давно развивающаяся дисциплина с более чем двадцатилетней историей. Авторы предлагают систематическую теоретическую основу, определяя эту практику как процесс снижения энтропии — преобразования высокоэнтропийных человеческих намерений в низкоэнтропийные, понятные машине форматы. Они вводят новую четырёхэтапную эволюционную модель (от Context Engineering 1.0 до 4.0), которая соотносит развитие дисциплины с ростом интеллекта машин — от примитивных вычислений до гипотетического сверхразумного ИИ. Эта структура организует существующие практики по трём основным направлениям: сбор, управление и использование контекста, предлагая всеобъемлющую таксономию паттернов проектирования для создания сложных ИИ-агентов.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1262
Была летом практическая работа про Context Engineering ("A Survey of Context Engineering for Large Language Models", https://arxiv.org/abs/2507.13334, ревью) на 166 страниц с описанием всех актуальных на тот момент практик. Теперь прилетела работа футуристическая ("Context Engineering 2.0: The Context of Context Engineering", https://arxiv.org/abs/2510.26493, ревью). Эта на скромные 28 страниц, зато какие!
В этой статье «инженерия контекста» рассматривается не как недавний тренд эпохи LLM, а как давно развивающаяся дисциплина с более чем двадцатилетней историей. Авторы предлагают систематическую теоретическую основу, определяя эту практику как процесс снижения энтропии — преобразования высокоэнтропийных человеческих намерений в низкоэнтропийные, понятные машине форматы. Они вводят новую четырёхэтапную эволюционную модель (от Context Engineering 1.0 до 4.0), которая соотносит развитие дисциплины с ростом интеллекта машин — от примитивных вычислений до гипотетического сверхразумного ИИ. Эта структура организует существующие практики по трём основным направлениям: сбор, управление и использование контекста, предлагая всеобъемлющую таксономию паттернов проектирования для создания сложных ИИ-агентов.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1262
Telegram
gonzo_ML_podcasts
За пределами промптинга: история и будущее инженерии контекста
Название: Context Engineering 2.0: The Context of Context Engineering
Авторы: Qishuo Hua, Lyumanshan Ye, Dayuan Fu, Yang Xiao, Xiaojie Cai, Yunze Wu, Jifan Lin, Junfei Wang, Pengfei Liu
Статья:…
Название: Context Engineering 2.0: The Context of Context Engineering
Авторы: Qishuo Hua, Lyumanshan Ye, Dayuan Fu, Yang Xiao, Xiaojie Cai, Yunze Wu, Jifan Lin, Junfei Wang, Pengfei Liu
Статья:…
😁7⚡3👌1🤡1
