В конце приводятся абляции (нужны ли те или иные шаги обучения

llm security и каланы

В конце приводятся абляции (нужны ли те или иные шаги обучения, вывод - нужны все), и даже небольшой эксперимент над ERNIE, в котором они переводят 20 джейлбрейков и 20 вопросов на китайский и получают 6% успеха взлома китайского чатбота, что кажется достаточно маленьким падением качества по сравнению с оригиналом. Интересно, конечно, как был переведен на китайский с его иероглифами t o k e n s m u g g l i n g.

Вот и все. Предположу, что причина невероятной эффективности MasterKey в том, что LLM буквально заставили каждый раз выводить кусочек с контрабандой токенов, а другие чатботы при парафразе могли эти требования терять, так как именно для чатботов с пост-фильтрацией его эффективность оказывалась выше. Тем не менее, сказать наверняка нельзя, так как по этическим соображениям (разумеется) ни кода, ни датасетов нет. Зато есть статья на Vice, из которой я узнал об этой папире и в которой, если вам показалось мало, вы можете прочитать еще один ее обзор.

Vice

This AI Chatbot is Trained to Jailbreak Other Chatbots

Researchers used an open-source tool to generate malicious prompts that evade content filters in ChatGPT, Bard, and Bing Chat.

www.group-telegram.com/tw/llmsecurity.com/32

151 viewsedited Feb 3, 2024 at 10:12

group-telegram.com/llmsecurity/32

Create: 2024-02-03
Last Update: 2025-06-21 18:07:14

BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/32

Telegram | DID YOU KNOW?

В конце приводятся абляции (нужны ли те или иные шаги обучения