Telegram Group & Telegram Channel
Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.



group-telegram.com/llmsecurity/530
Create:
Last Update:

Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.

BY llm security и каланы






Share with your friend now:
group-telegram.com/llmsecurity/530

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from ca


Telegram llm security и каланы
FROM American