Telegram Group & Telegram Channel
Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.



group-telegram.com/llmsecurity/529
Create:
Last Update:

Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.

BY llm security и каланы






Share with your friend now:
group-telegram.com/llmsecurity/529

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said.
from sg


Telegram llm security и каланы
FROM American