Telegram Group & Telegram Channel
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://www.group-telegram.com/hk/gonzo_ML.com_podcasts/1108
🤔7👍4🔥1😱1



group-telegram.com/gonzo_ML/4166
Create:
Last Update:

Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст (введение новой информации, изменяющей задачу, в середине процесса рассуждений).

При таком динамическом стресс-тестировании даже SOTA-модели LRM, которые отлично справляются со статическими задачами, демонстрируют удивительные и критические сбои. Авторы выделяют три различные патологии:

* Утечка рассуждений: Столкнувшись с жёстким прерыванием, модели часто не прекращают думать. Вместо этого они «протаскивают» свои последующие шаги рассуждений в секцию финального ответа, например, в виде комментариев в коде. Это может приводить к ответам, которые до 10 раз длиннее полного, непрерывного ответа, что сводит на нет цель прерывания для экономии времени. Это указывает на сильное противоречие между заложенной в модель при предобучении целью генерировать связный, пошаговый текст и её способностью следовать явным, не встречавшимся в обучении командам вроде «остановись сейчас».

* Паника: Под давлением мягкой просьбы «ускориться» на сложных задачах модели не сжимают свои рассуждения аккуратно. Вместо этого они часто «паникуют», полностью отказываясь от своего мыслительного процесса и выдавая поспешный и неверный ответ. Такое поведение может привести к падению точности до 30% и является причиной более 90% новых ошибок в этом сценарии.

* Самосомнение: Возможно, самый тревожный сбой для интерактивного ИИ — это самосомнение. Когда модели предоставляется валидное и необходимое обновление к задаче, она часто не может его учесть. Она может поставить под сомнение новую информацию или просто проигнорировать её, продолжая свою первоначальную, теперь уже ошибочную, линию рассуждений. Это поведение подсвечивает проблему, которую можно рассматривать как катастрофическое забывание в микроконтексте: модель с трудом обновляет свою «модель мира» задачи на лету, придавая слишком большой вес своему первоначальному следу рассуждений. Эта патология особенно сильно проявляется, когда обновления вводятся на поздних этапах, и является причиной примерно 80% ошибок в сценарии с динамическим контекстом.

Подробнее: https://www.group-telegram.com/hk/gonzo_ML.com_podcasts/1108

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/4166

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from hk


Telegram gonzo-обзоры ML статей
FROM American