Telegram Group & Telegram Channel
Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.



group-telegram.com/llmsecurity/531
Create:
Last Update:

Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.

BY llm security и каланы






Share with your friend now:
group-telegram.com/llmsecurity/531

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Founder Pavel Durov says tech is meant to set you free
from br


Telegram llm security и каланы
FROM American