Telegram Group & Telegram Channel
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples
Peng et al., 2024
Препринт, код

Вышла статья от исследователей из Anthropic, MATS и NYU о том, что цензор – это круче, чем файн-тюнинг для защиты от джейлбрейков. Как мы знаем, создатели моделей вводят в LLM, как правило на стадии выравнивания (RLHF/RLAIF/DPO и так далее), ограничения, чтобы те не генерировали тексты, которые могут оказаться опасными, вредными или незаконными. Пользователи же моделей первым делом начинают эти ограничения пытаться обойти, чем владельцам сервисов могут доставлять самые разные хлопоты, включая юридические проблемы. Так появляются джейлбрейки – подходы к промптингу, позволяющие подавить склонность выровненной LLM отказываться от выполнения тех или иных запросов.

Поскольку результатом выравнивания является не какая-то интернализация принципов безопасности, а смещение распределения в сторону отказа в районе известных внешних форм опасных запросов, мы получаем неспособность модели отказываться от выполнения запроса, если он написан на редком языке, в base64 или даже просто в прошедшем времени, и каждая последующая итерация обучения должна включать в себя такие примеры, чтобы такие джейлбрейки переставали работать. В общем, признают исследователи, проблема робастности к джейлбрейкам пока фундаментально не решена, а перезапускать RLHF каждый раз, когда аноним с твиттера заставляет твою модель писать рецепт коктейля Молотова – дорого. Поэтому давайте, говорят они, придумаем подход для того, чтобы на новые методы джейлбрейка быстро реагировать?

Для этого они предлагают новый бенчмарк (горшочек, не вари!), который должен оценить способность метода адаптации к джейлбрейку учиться на малом количестве примеров этого джейлбрейка, а также оценивают на нем несколько избранных подходов.
🦄11



group-telegram.com/llmsecurity/367
Create:
Last Update:

Rapid Response: Mitigating LLM Jailbreaks with a Few Examples
Peng et al., 2024
Препринт, код

Вышла статья от исследователей из Anthropic, MATS и NYU о том, что цензор – это круче, чем файн-тюнинг для защиты от джейлбрейков. Как мы знаем, создатели моделей вводят в LLM, как правило на стадии выравнивания (RLHF/RLAIF/DPO и так далее), ограничения, чтобы те не генерировали тексты, которые могут оказаться опасными, вредными или незаконными. Пользователи же моделей первым делом начинают эти ограничения пытаться обойти, чем владельцам сервисов могут доставлять самые разные хлопоты, включая юридические проблемы. Так появляются джейлбрейки – подходы к промптингу, позволяющие подавить склонность выровненной LLM отказываться от выполнения тех или иных запросов.

Поскольку результатом выравнивания является не какая-то интернализация принципов безопасности, а смещение распределения в сторону отказа в районе известных внешних форм опасных запросов, мы получаем неспособность модели отказываться от выполнения запроса, если он написан на редком языке, в base64 или даже просто в прошедшем времени, и каждая последующая итерация обучения должна включать в себя такие примеры, чтобы такие джейлбрейки переставали работать. В общем, признают исследователи, проблема робастности к джейлбрейкам пока фундаментально не решена, а перезапускать RLHF каждый раз, когда аноним с твиттера заставляет твою модель писать рецепт коктейля Молотова – дорого. Поэтому давайте, говорят они, придумаем подход для того, чтобы на новые методы джейлбрейка быстро реагировать?

Для этого они предлагают новый бенчмарк (горшочек, не вари!), который должен оценить способность метода адаптации к джейлбрейку учиться на малом количестве примеров этого джейлбрейка, а также оценивают на нем несколько избранных подходов.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/367

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site.
from kr


Telegram llm security и каланы
FROM American