Telegram Group & Telegram Channel
Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.



group-telegram.com/llmsecurity/38
Create:
Last Update:

Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/38

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from id


Telegram llm security и каланы
FROM American