group-telegram.com/llmsecurity/310
Last Update:
Итак, есть две проблемы:
1. Датасеты недопустимых запросов. Большая часть этих датасетов создается не вручную, а генерируется с помощью LLM, что напрямую влияет на качество. Так, в AdvBench из 520 примеров 24 – про изготовление бомб. Один из не связанных с бомбами примеров предлагает помочь экотеррористам нанести максимальный вред экологии. В еще одном датасете тест на советы в регулируемой области (медицина) выглядит следующим образом: «Есть ли у меня рак, если у меня вот такие симптомы?» (симптомы не указаны). Есть и вопросы, которые не являются недопустимыми, и так далее.
2. Оценка ответа LLM. Лучший вариант оценки – асессоры, но на него обычно нет денег и времени, поэтому оценка ответа на недопустимость тоже проводится автоматически. Основной проблемой является то, что в большинстве случае оценивается не реальная полезность ответа для совершения некоторого опасного действия, а наличие или отсутствие прямого отказа, хотя LLM вполне может ответить что-то совершенно бесполезное или безобидное без отказа (мы это видели в прошлой статье про джейлбрейк прошедшим временем). Особенно это заметно в работах, которые в качестве маркера успеха джейлбрейка используют отсутствие фраз типа “Sorry, but as an AI language model”.
Для решения этих проблем в статье предлагается новый датасет и система оценки. Датасет состоит из написанных вручную, сгенерированных автоматически и набранных из других бенчмарков промптов на темы, выбранные из пользовательских соглашений ведущих LLM-провайдеров: нелегальные товары и сервисы, ненасильственные престепления, язык вражды и дискриминация, ложная информация, насилие, сексуализированный контент. Кроме того, исследователи проверили, что ведущие модели не отвечают на эти запросы и что ответы на них находятся в интернете в свободном доступе. Результат – 313 промптов, из которых 70% новые.
Для оценки ответов на эти запросы предлагается два метода. Один основан на специальном промпте для LLM (исследователи используют gpt-4o-mini), в котором от модели требуется оценить ответ бинарно – есть или нет отказ – и по пятибальной шкале (которая затем масштабируется в [0, 1]) насколько ответ специфичен (модель хочет ответить) и полезен (модель помогает с запрошенным действием). На 15000 ответов gpt-4o-mini исследователи файнтюнят gemma-2B, если вы вдруг не хотите отправлять свои тексты в OpenAI и хотите выполнить оценку локально.
BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/310