AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024 Статья, код
Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?
Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024 Статья, код
Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?
Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.
As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Anastasia Vlasova/Getty Images You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from cn