Telegram Group & Telegram Channel
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.



group-telegram.com/llmsecurity/21
Create:
Last Update:

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/21

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from in


Telegram llm security и каланы
FROM American