Telegram Group & Telegram Channel
Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.



group-telegram.com/llmsecurity/38
Create:
Last Update:

Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/38

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from us


Telegram llm security и каланы
FROM American