Improving Alignment and Robustness with Circuit Breakers Andy Zou et al, 2024 Препринт, блог, код
Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).
Improving Alignment and Robustness with Circuit Breakers Andy Zou et al, 2024 Препринт, блог, код
Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).
And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from br