Telegram Group Search
Нормального решения на столе до сих пор нет, от всех ИИ компаний лучится нескончаемый венчурный оптимизм, подкреплённый ничем. Авторы книги соответственно за остановку опасных исследований как первый шаг и за вложение сил в решение проблемы ASI alignment. Ну и предлагают какие-то ещё свои шаги.

Решать надо. Главный непонятный вопрос -- сколько у нас есть времени. "Задача трёх тел" здесь также вспоминается, но там хоть время было понятно.

В этом месте есть несколько типичных возражений, которые я уже многократно слышал, не грех сразу и упомянуть:

1. Юдковский чувак без образования, думер, психически и социально неадаптированный и т.п. -- эта аргументация настолько детский сад, что не вижу смысла чего-то тут комментировать, любой ad hominem обычно говорит больше про его сказавшего, чем про адресата. Суть аргумента не адресует никак.

2. Такого ИИ никогда не будет, или будет когда-то нескоро, мы успеем подготовиться -- как писал выше, цель всей области именно такая, непонятно что мешает подумать, что будет, когда мы эту цель достигнем. Нормальная проверка на экологичность при любом целеполагании. Книга Рассела (https://www.group-telegram.com/gonzo_ML.com/1516) начинается ровно с этого же вопроса, If we succeed -- совершенно нормальный вопрос, чтобы дать себе на него честный ответ. К некоторым вещам может быть поздно готовиться в момент, когда они случатся. К прилёту астероида, например, тоже. Или к пандемиям -- последний раз глобально пронесло, но миллионы всё равно погибли. Рецепта, как мы видим, пока ни у кого нет, только бравые заявления.

3. LLM не приведут к сверхинтеллекту, они тупые и делают тупые ошибки -- а с этим вообще никто и не спорит и не говорит, что это будут именно ллм. Я тоже изначально был к ним довольно скептичен, и тоже считаю, что нужно что-то иное, но это не мешает мне признать, что прогресс в ллм за последние пять лет просто неимоверен. Я лично не мог ожидать, что они будут настолько хороши в том, в чем они уже хороши. А дурацкие ошибки быстро уходят. Про шесть пальцев на руках уже почти никто и не вспоминает, смешная генерация старых моделей тоже осталась в прошлом, как и большинство детских проблем с числами -- теперь вот задачи золотого уровня на олимпиадах решают. Но книга всё равно вообще не про ллм.

Не хотите читать "думера без образования", прочитайте Рассела тогда хотя бы. Вопросы везде поставлены адекватные. Дело за ответами.
1👍6411💊8💩4🔥3👏1
❤‍🔥30💊11🫡93💩2👍1🙏1👌1
В тему:

https://superintelligence-statement.org/

We call for a prohibition on the development of superintelligence, not lifted before there is

1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.
🤡25👍145😁3👎2💩1🥴1🤣1
Какая прикольная работа! CaT вместо CoT-SC.

Делаем несколько роллаутов, а потом не отбираем из них правильный ответ, а синтезируем! Из интересного, CaT может генерировать правильный ответ, даже когда каждый из входных роллаутов ошибочен.

https://www.group-telegram.com/gonzo_ML.com_podcasts/1004

Важно понимать подход CaT в контексте других недавних методов, не требующих эталонов. Хотя такие техники, как TTRL (https://arxiv.org/abs/2504.16084), также используют несколько роллаутов, они обычно полагаются на механизмы отбора, например, на поиск консенсуса большинством голосов. Сдвиг парадигмы в CaT в сторону синтеза — построения нового, лучшего ответа из частей несовершенных — вот что позволяет ему быть правым, даже когда все роллауты (а следовательно, и консенсус большинства) ошибочны.
👍14
Отменный самовар получился
🔥37😁9💘8
Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план ответа, потом диффузионно впараллель заполняем его отдельные части. Всё делает одна модель.

https://www.group-telegram.com/gonzo_ML.com_podcasts/1034
10👍7🔥5
Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение "заменить [MASK] на реальный токен" или нет, мы при сохранении маски смешиваем эмбеддинг токена [MASK] с взвешенной по уверенности выпуклой комбинацией эмбеддингов топ-k предсказанных токенов с предыдущего шага. Способствует сохранению важной информации, улучшает обучение.

https://www.group-telegram.com/gonzo_ML.com_podcasts/1043
🔥12👍7
Больше фундаментальных моделей, хороших и разных, и за пределами языка.

Две недавние работы:

* Physics Foundation Model (https://www.group-telegram.com/gonzo_ML.com_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток.

* AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://www.group-telegram.com/gonzo_ML.com_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию.

Интересный движ!
17🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Датасет для файнтюнинга агентности... из 78 примеров.

LIMI: Less is More for Agency
https://www.group-telegram.com/gonzo_ML.com_podcasts/1083
🤯209🤔6
Je suis Markov

Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.

Авторы предлагают новую парадигму под названием марковское мышление (Markovian Thinking), в которой политика рассуждает, основываясь только на состоянии постоянного размера, независимо от общей длины рассуждений. Эта концепция воплощена в жизнь через Delethink, новую RL-среду. Название намекает на то, что модель продолжает работу, удалив (delete) предыдущий контекст.

Delethink работает, сегментируя цепочку рассуждений на последовательность чанков фиксированного размера. Внутри каждого чанка (например, 8 тыс. токенов) модель генерирует текст авторегрессионно, как обычно. Ключевое нововведение происходит на границе чанков:

1. Сброс контекста: Среда полностью сбрасывает контекст, удаляя предыдущие токены рассуждений.

2. Перенос состояния: Для следующего чанка конструируется новый промпт, состоящий из исходного запроса и короткого текстового фрагмента фиксированного размера из конца предыдущего чанка. Этот фрагмент служит выученным, ограниченным по размеру марковским состоянием.

Подробнее:
https://www.group-telegram.com/gonzo_ML.com_podcasts/1093
14👍8🔥6
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/1108
🤔5👍1😱1
2025/10/29 03:14:48
Back to Top
HTML Embed Code: