Telegram Group & Telegram Channel
Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/507
Create:
Last Update:

Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈

BY llm security и каланы










Share with your friend now:
group-telegram.com/llmsecurity/507

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. False news often spreads via public groups, or chats, with potentially fatal effects. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from us


Telegram llm security и каланы
FROM American