Telegram Group & Telegram Channel
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.



group-telegram.com/llmsecurity/437
Create:
Last Update:

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/437

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from br


Telegram llm security и каланы
FROM American