Telegram Group & Telegram Channel
Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/509
Create:
Last Update:

Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈

BY llm security и каланы










Share with your friend now:
group-telegram.com/llmsecurity/509

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from cn


Telegram llm security и каланы
FROM American