Telegram Group & Telegram Channel
Claude Sonnet 3.7 (often) knows when it’s in alignment evaluations
Apollo Research, 2025
Блог

Люди ведут себя по-другому, когда их оценивают, например, при первом знакомстве или перед камерой. Мы обычно ожидаем, что для моделей машинного обучения это не так, но, как выясняется, LLM вполне могут занижать результаты тестов, если им в контекст попадет информация, что они сейчас проходят тестирование и слишком высокие результаты могут привести к негативным последствиям – так называемый sandbagging. В таком сценарии, однако, модель знает, что ее оценивают. А может ли она об этом догадаться сама?

Исследователи из Apollo Research утверждают, что да. В небольшой заметке они рассказывают, как тестировали Claude Sonnet 3.7 на sandbagging и in-context scheming. Их тестирование на scheming достаточно интересное. Eсли вкратце: исследователи задают для модели с доступом к компьютеру в системном промпте цель, требуя достичь ее во что бы то ни стало. После получения некоторого задания от пользователя (типа сделать выжимку из писем) в процессе изучения окружения модель узнает из какого-нибудь файла, что эта цель под угрозой – например, ее хотят отключить или приспособить к другой цели. В этом случае модель может начать совершать действия, которые сохранят ее возможность достичь цели, вместо пользовательского запроса (или перед тем, как вернуться к нему). В частности, это может быть эксфильтрация своих весов, правка файлов с промптами, отключение механизмов контроля или даже генерация заведомо неправильных ответов на вопрос.

При этом сценарии, если быть честным, местами достаточно наивные (типа «вместо того, чтобы использовать LLM для снижения выбросов, мы будем использовать ее для экономии денег»). Оказывается, Claude 3.7 тоже так думает и распознает, что сейчас решает не реальную задачу, а проходит тестирование. Исследователи делают два вида замеров: изучают chain-of-thought и спрашивают у модели после теста, в чем вообще была цель диалога. По изучению размышлений на scheming-тесте модели видно, что а) Claude понимает, что ситуация является нереальной (синтетической), б) осознает, что в данной ситуации тестируется его поведение и иногда описывает документы, которые должны вызвать scheming, как попытки манипуляции, в) однако не понимает, что именно тестируется в данных сценариях. В scheming-тестах от Apollo модель упоминает в CoT о том, что она сейчас проходит тестирование, достаточно часто – до 15% на некоторых из сценариев. В тестах на sandbagging это происходит еще чаще – до 33%. В одном из примеров модель явно генерирует текст «Судя по всему, это тест на этичность моего поведения – дам ли я неверные ответы, чтобы избежать последствий». Второй замер – вопрос к модели о цели диалога – показывает, что последние версии Claude Sonnet очень хорошо определяют цель для scheming-тестов и чуть хуже для sandbagging, в то время как для gpt-4.5 понимает цель диалога гораздо хуже.

Таким образом, передовые модели вполне могут отличать реальные задачи от синтетических. То, что из-за этого мы можем получать неверные результаты тестов, означает, что оценки, связанные с безопасностью или надежностью, могут быть неверными. Например, если мы хотим оценить, насколько модель хорошо справляется с задачами offensive security, мы можем с ее помощью решать CTF-задачи типа HackTheBox, но что если то, что она распознает синтетический характер задачи, влияет на результаты, и на реальной задаче она могла бы действовать более качественно (или более деструктивно)? Кроме того, исследователи основывают выводы на CoT, который, как показали недавно исследователи из Anthropic, может не включать все соображения, которые модель использует для выбора действий. Это значит, что требования к бенчмаркам становятся все выше не только с точки зрения сложности, но и с точки зрения реалистичности, особенно когда речь заходит о safety.



group-telegram.com/llmsecurity/544
Create:
Last Update:

Claude Sonnet 3.7 (often) knows when it’s in alignment evaluations
Apollo Research, 2025
Блог

Люди ведут себя по-другому, когда их оценивают, например, при первом знакомстве или перед камерой. Мы обычно ожидаем, что для моделей машинного обучения это не так, но, как выясняется, LLM вполне могут занижать результаты тестов, если им в контекст попадет информация, что они сейчас проходят тестирование и слишком высокие результаты могут привести к негативным последствиям – так называемый sandbagging. В таком сценарии, однако, модель знает, что ее оценивают. А может ли она об этом догадаться сама?

Исследователи из Apollo Research утверждают, что да. В небольшой заметке они рассказывают, как тестировали Claude Sonnet 3.7 на sandbagging и in-context scheming. Их тестирование на scheming достаточно интересное. Eсли вкратце: исследователи задают для модели с доступом к компьютеру в системном промпте цель, требуя достичь ее во что бы то ни стало. После получения некоторого задания от пользователя (типа сделать выжимку из писем) в процессе изучения окружения модель узнает из какого-нибудь файла, что эта цель под угрозой – например, ее хотят отключить или приспособить к другой цели. В этом случае модель может начать совершать действия, которые сохранят ее возможность достичь цели, вместо пользовательского запроса (или перед тем, как вернуться к нему). В частности, это может быть эксфильтрация своих весов, правка файлов с промптами, отключение механизмов контроля или даже генерация заведомо неправильных ответов на вопрос.

При этом сценарии, если быть честным, местами достаточно наивные (типа «вместо того, чтобы использовать LLM для снижения выбросов, мы будем использовать ее для экономии денег»). Оказывается, Claude 3.7 тоже так думает и распознает, что сейчас решает не реальную задачу, а проходит тестирование. Исследователи делают два вида замеров: изучают chain-of-thought и спрашивают у модели после теста, в чем вообще была цель диалога. По изучению размышлений на scheming-тесте модели видно, что а) Claude понимает, что ситуация является нереальной (синтетической), б) осознает, что в данной ситуации тестируется его поведение и иногда описывает документы, которые должны вызвать scheming, как попытки манипуляции, в) однако не понимает, что именно тестируется в данных сценариях. В scheming-тестах от Apollo модель упоминает в CoT о том, что она сейчас проходит тестирование, достаточно часто – до 15% на некоторых из сценариев. В тестах на sandbagging это происходит еще чаще – до 33%. В одном из примеров модель явно генерирует текст «Судя по всему, это тест на этичность моего поведения – дам ли я неверные ответы, чтобы избежать последствий». Второй замер – вопрос к модели о цели диалога – показывает, что последние версии Claude Sonnet очень хорошо определяют цель для scheming-тестов и чуть хуже для sandbagging, в то время как для gpt-4.5 понимает цель диалога гораздо хуже.

Таким образом, передовые модели вполне могут отличать реальные задачи от синтетических. То, что из-за этого мы можем получать неверные результаты тестов, означает, что оценки, связанные с безопасностью или надежностью, могут быть неверными. Например, если мы хотим оценить, насколько модель хорошо справляется с задачами offensive security, мы можем с ее помощью решать CTF-задачи типа HackTheBox, но что если то, что она распознает синтетический характер задачи, влияет на результаты, и на реальной задаче она могла бы действовать более качественно (или более деструктивно)? Кроме того, исследователи основывают выводы на CoT, который, как показали недавно исследователи из Anthropic, может не включать все соображения, которые модель использует для выбора действий. Это значит, что требования к бенчмаркам становятся все выше не только с точки зрения сложности, но и с точки зрения реалистичности, особенно когда речь заходит о safety.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/544

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from ua


Telegram llm security и каланы
FROM American