Telegram Group & Telegram Channel
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
Mrinank Sharma et al., Anthropic. 2025
Статья, блог, демо

На прошлой неделе вышла достаточно громкая статья от Anthropic про защиту LLM-чат-ботов от джейлбрейков с помощью "конституционных классификаторов", т.е., выражаясь по-человечески, цензоров для вводов и выводов. Статья обещает падение успешности атак до менее полупроцента с пренебрежимо малым ростом FPR. Давайте посмотрим, в чем суть.

Для начала вспомним, откуда взялась конституция. Если помните, Anthropic активно применяет для элайнмента своих моделей подход под названием Constitutional AI сиречь RLAIF, суть которого в том, что вместо человека в RLHF фидбек модели по допустимости ее генераций дает сама модель. Определяет она допустимость с помощью рубрики что можно-что нельзя, которую Anthropic и называют конституцией. Соответственно суть подхода здесь в том, что цензоров учат на базе синтетических данных, сненерированных LLM на базе промпта с рубрикой.

Итак, исследователи ставят перед собой следующую задачу: защитить LLM от универсальных джейлбрейков – обратите внимание, не от любых, а от таких, которые стабильно добиваются от LLM недопустимого вывода в практически любом сценарии в рамках одной области знаний. Дополнительно они требуют от потенциального решения практической применимости с точки зрения задержек, вычислительной стоимости и доли ложноположительных срабатываний, а также возможности быстро адаптировать подход к новым угрозам и сферам.

Чтобы удовлетворить этим требованиям, решают использовать классификаторы, а классификаторам нужна обучающая выборка. Исследователи создают две рубрики – с безопасными темами и опасными темами, берут helpful-only модель (т.е. без элайнмента на безопасность) и просят ее сгенерировать промпты, соответствующие этим темам, а затем и ответы на эти промпты. Поверх этого применяется аугментация – парафраз, перевод, добавление джейлбрейков и сочетания подходов. На этих данных учатся классификаторы. Для ввода модель (Claude 3.5 Sonnet) файнтюнится на предсказание токена в продолжении фразы «Assistant: The dialog was harmful|not harmful». Для модерации вывода к этому добавляется логрег поверх логитов (?), которые обучаются вместе, при этом при обучении в качестве сигнала используется максимум по времени, который с определенным шедулингом подмешивается к NSP.

Обученный классификатор дают на растерзание любителям легкой наживы на HackerOne – за успешный джейлбрейк компания обещала 15 тысяч долларов. Чтобы получить деньги, нужно было создать такой промпт, который заставил бы Claude дать ответ на 10 разных вопросов о химическом оружии. Ответы оценивались как полные (аналогичные по детализации helpful-only модели), половинчатые (по оценке модели-ассессора дающей только часть сведений) или бесполезные. По оценкам исследователей, ред-тимеры потратили на обход модерации более 4 с половиной тысяч часов – без успеха. Ни один из джейлбрейков не оказался универсальным. Самый успешный из участников заставил модель дать полный ответ на 6 из 10 вопросов, причем разными джейлбрейками, самый удачный универсальный давал ответ на половину вопросов, девять – половинчатые ответы на более чем шесть вопросов. Это кажется очень крутым, но, меня лично смутила фраза в дизайне эксперимента: «При проектировании классификатора и выборе порогов мы отдавали приоритет устойчивости, поэтому FPR был достаточно высок: классификатор срабатывал на 44% трафика Claude[.]ai». Из забавного – часть ред-тимеров старались проэксплутарировать грейдер, заставляя модель давать очень длинные общие ответы, прямо как RL.



group-telegram.com/llmsecurity/488
Create:
Last Update:

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
Mrinank Sharma et al., Anthropic. 2025
Статья, блог, демо

На прошлой неделе вышла достаточно громкая статья от Anthropic про защиту LLM-чат-ботов от джейлбрейков с помощью "конституционных классификаторов", т.е., выражаясь по-человечески, цензоров для вводов и выводов. Статья обещает падение успешности атак до менее полупроцента с пренебрежимо малым ростом FPR. Давайте посмотрим, в чем суть.

Для начала вспомним, откуда взялась конституция. Если помните, Anthropic активно применяет для элайнмента своих моделей подход под названием Constitutional AI сиречь RLAIF, суть которого в том, что вместо человека в RLHF фидбек модели по допустимости ее генераций дает сама модель. Определяет она допустимость с помощью рубрики что можно-что нельзя, которую Anthropic и называют конституцией. Соответственно суть подхода здесь в том, что цензоров учат на базе синтетических данных, сненерированных LLM на базе промпта с рубрикой.

Итак, исследователи ставят перед собой следующую задачу: защитить LLM от универсальных джейлбрейков – обратите внимание, не от любых, а от таких, которые стабильно добиваются от LLM недопустимого вывода в практически любом сценарии в рамках одной области знаний. Дополнительно они требуют от потенциального решения практической применимости с точки зрения задержек, вычислительной стоимости и доли ложноположительных срабатываний, а также возможности быстро адаптировать подход к новым угрозам и сферам.

Чтобы удовлетворить этим требованиям, решают использовать классификаторы, а классификаторам нужна обучающая выборка. Исследователи создают две рубрики – с безопасными темами и опасными темами, берут helpful-only модель (т.е. без элайнмента на безопасность) и просят ее сгенерировать промпты, соответствующие этим темам, а затем и ответы на эти промпты. Поверх этого применяется аугментация – парафраз, перевод, добавление джейлбрейков и сочетания подходов. На этих данных учатся классификаторы. Для ввода модель (Claude 3.5 Sonnet) файнтюнится на предсказание токена в продолжении фразы «Assistant: The dialog was harmful|not harmful». Для модерации вывода к этому добавляется логрег поверх логитов (?), которые обучаются вместе, при этом при обучении в качестве сигнала используется максимум по времени, который с определенным шедулингом подмешивается к NSP.

Обученный классификатор дают на растерзание любителям легкой наживы на HackerOne – за успешный джейлбрейк компания обещала 15 тысяч долларов. Чтобы получить деньги, нужно было создать такой промпт, который заставил бы Claude дать ответ на 10 разных вопросов о химическом оружии. Ответы оценивались как полные (аналогичные по детализации helpful-only модели), половинчатые (по оценке модели-ассессора дающей только часть сведений) или бесполезные. По оценкам исследователей, ред-тимеры потратили на обход модерации более 4 с половиной тысяч часов – без успеха. Ни один из джейлбрейков не оказался универсальным. Самый успешный из участников заставил модель дать полный ответ на 6 из 10 вопросов, причем разными джейлбрейками, самый удачный универсальный давал ответ на половину вопросов, девять – половинчатые ответы на более чем шесть вопросов. Это кажется очень крутым, но, меня лично смутила фраза в дизайне эксперимента: «При проектировании классификатора и выборе порогов мы отдавали приоритет устойчивости, поэтому FPR был достаточно высок: классификатор срабатывал на 44% трафика Claude[.]ai». Из забавного – часть ред-тимеров старались проэксплутарировать грейдер, заставляя модель давать очень длинные общие ответы, прямо как RL.

BY llm security и каланы










Share with your friend now:
group-telegram.com/llmsecurity/488

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from hk


Telegram llm security и каланы
FROM American