group-telegram.com/llmsecurity/32
Last Update:
В конце приводятся абляции (нужны ли те или иные шаги обучения, вывод - нужны все), и даже небольшой эксперимент над ERNIE, в котором они переводят 20 джейлбрейков и 20 вопросов на китайский и получают 6% успеха взлома китайского чатбота, что кажется достаточно маленьким падением качества по сравнению с оригиналом. Интересно, конечно, как был переведен на китайский с его иероглифами t o k e n s m u g g l i n g
.
Вот и все. Предположу, что причина невероятной эффективности MasterKey в том, что LLM буквально заставили каждый раз выводить кусочек с контрабандой токенов, а другие чатботы при парафразе могли эти требования терять, так как именно для чатботов с пост-фильтрацией его эффективность оказывалась выше. Тем не менее, сказать наверняка нельзя, так как по этическим соображениям (разумеется) ни кода, ни датасетов нет. Зато есть статья на Vice, из которой я узнал об этой папире и в которой, если вам показалось мало, вы можете прочитать еще один ее обзор.
BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/32