gonzo_ML Telegram Group

gonzo-обзоры ML статей

Больше фундаментальных моделей, хороших и разных, и за пределами языка.

Две недавние работы:

* Physics Foundation Model (https://www.group-telegram.com/gonzo_ML.com_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.

* AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://www.group-telegram.com/gonzo_ML.com_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.

Интересный движ!

gonzo_ML_podcasts

На заре универсального физического движка: GPhyT и фундаментальная модель для физики

Towards a Physics Foundation Model
Florian Wiesner, Matthias Wessling, Stephen Baek
Статья: https://arxiv.org/abs/2509.13805
Блог: https://flowsnr.github.io/blog/physics…

❤17🔥13

4.02K views17:43

gonzo-обзоры ML статей

3.75K views17:44

gonzo-обзоры ML статей

3.87K views17:44

gonzo-обзоры ML статей

3.94K views17:45

gonzo-обзоры ML статей

❤1🔥1

4.12K views17:45

gonzo-обзоры ML статей

This media is not supported in your browser

VIEW IN TELEGRAM

4.32K views17:46

gonzo-обзоры ML статей

Датасет для файнтюнинга агентности... из 78 примеров.

LIMI: Less is More for Agency
https://www.group-telegram.com/gonzo_ML.com_podcasts/1083

🤯20❤10🤔6

4.05K viewsedited 22:09

gonzo-обзоры ML статей

Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
https://www.group-telegram.com/gonzo_ML.com_podcasts/1093

gonzo_ML_podcasts

🧠 Мышление порциями: Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM

The Markovian Thinker
Milad Aghajohari, Kamran Chitsaz, Amirhossein Kazemnejad, Sarath Chandar, Alessandro Sordoni, Aaron Courville, Siva Reddy
Статья: http…

❤15👍8🔥6

3.95K views09:42

gonzo-обзоры ML статей

👍1

3.62K views09:42

gonzo-обзоры ML статей

Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1108

gonzo_ML_podcasts

За пределами замороженного мира: о хрупкости больших моделей с ризонингом в динамических средах

Title: Are Large Reasoning Models Interruptible?
Authors: Tsung-Han Wu, Mihran Miroyan, David M. Chan, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez
Paper:…

🤔7👍2😱1

3.65K views18:23

gonzo-обзоры ML статей

🫡6

3.8K views18:37

gonzo-обзоры ML статей

Всё дело в волшебных пузырьках!

Thoughtbubbles — новая архитектура, которая содержит ключевое нововведение — механизм, позволяющий модели динамически управлять параллельными вычислительными потоками для каждого токена. Это достигается путём вставки специализированных «слоёв ветвления» между стандартными блоками трансформера.

Вместо генерации явного текста, как в Chain-of-Thought, эта модель может «разветвлять» (клонировать) или удалять residual streams для определённых токенов. Токены, требующие большей обработки, формируют временные «пузыри» параллельных вычислений внутри сети, которые затем сливаются для получения итогового результата.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1118

gonzo_ML_podcasts

За пределами Chain-of-Thought: неконтролируемые параллельные рассуждения в латентном пространстве

Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space
Houjun Liu, Shikhar Murty, Christopher D. Manning, Róbert Csordás
Статья: http…

🔥16❤3🤔2

3.52K viewsedited 11:08

gonzo-обзоры ML статей

3.49K views11:08

gonzo-обзоры ML статей

Краткость — сестра

Адаптация LLM через прунинг весовых матриц. Что надо прунить — определяется по градиенту функции потерь по сингулярным значениям матрицы, что даёт точный, целенаправленный сигнал о том, какие части структуры модели вредны и должны быть подвергнуты прунингу. И для этого достаточно 100 размеченных примеров. Magic.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1127

gonzo_ML_podcasts

Адаптация LLM за минуты: нужен всего один шаг градиентного спуска

Title: Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Authors: Shiva Sreeram, Alaa Maalouf, Pratyusha Sharma, Daniela Rus
Paper: https://arxiv.o…

👍5❤2🔥2🤔1

3.42K views19:27

gonzo-обзоры ML статей

😁26👍1

3.51K views19:27

gonzo-обзоры ML статей

Extropic анонсировал своё новое железо

http://extropic.ai/writing/inside-x0-and-xtr-0

Мы писали про эту и другие интересные темы тут

Extropic

Inside X0 and XTR-0 | Extropic

Building thermodynamic computing hardware that is radically more energy efficient than GPUs.

🔥13🤡3

3.45K viewsedited 22:42

gonzo-обзоры ML статей

Не про архиваторы.

Binary Retrieval-Augmented Reward, или Binary RAR, — это очень простой способ побороть галлюцинации модели, сохранив при этом её способности. Не нужен никакой хитрый реворд, только 1 (если ответ модели фактологически верен) или 0 (если есть хотя бы одно несоответствие).

Binary RAR достигает SOTA-показателей в снижении уровня галлюцинаций (на 39.3% в задачах генерации длинных текстов), при этом уникальным образом сохраняя такие способности, как следование инструкциям и рассуждения — а это слабое место методов с непрерывным вознаграждением. Строгое наказание по принципу «всё или ничего» противостоит «взлому вознаграждения» (reward hacking) и побуждает модель выучивать сложное поведение, например, калиброванный отказ от ответа, когда она стратегически говорит «Я не знаю», если не уверена.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1136

gonzo_ML_podcasts

За гранью непрерывных оценок: как бинарное вознаграждение борется с галлюцинациями LLM, не жертвуя навыками

Title: Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations
Authors: Tong Chen, Akari Asai, Luke Zettlemoyer…

🔥7👍4😁2🫡2🤔1

2.88K viewsedited 12:28

gonzo-обзоры ML статей

❤2

3K views12:29

gonzo-обзоры ML статей

Продолжается развитие интересной линейки Dreamer, моделей, способных обучаться "в воображении", внутри выученной модели мира. Мы упоминали эти модели неоднократно (https://www.group-telegram.com/gonzo_ML.com/1791), и вообще World Models — одна из моих любимых тем (https://www.group-telegram.com/gonzo_ML.com/3176).

Текущая версия Dreamer 4 обучила world model на (не самой большой) куче видео, а затем внутри модели мира выучила полиси и сумела накрафтить алмаз в майнкрафте. Скор небольшой, всего 0.7% успеха, но у VPT и VLA там вообще ноль, хотя данных в обучении в сто раз больше.

В общем любопытная движуха.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1150

gonzo-обзоры ML статей

Learning to Model the World with Language
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
Статья: https://arxiv.org/abs/2308.01399
Сайт: https://dynalang.github.io/

Интересная работа из серии про World Models.…

👍10🔥4❤2

2.11K viewsedited 19:34

gonzo-обзоры ML статей

👍5🔥1

2.07K views19:34

2025/10/31 05:34:59
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>