Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack Mark Russinovich et al, Microsoft, 2023 Препринт, сайт
В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.
Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.
Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack Mark Russinovich et al, Microsoft, 2023 Препринт, сайт
В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.
Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.
Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.
"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from id