Telegram Group & Telegram Channel
Improving Alignment and Robustness with Circuit Breakers
Andy Zou et al, 2024
Препринт, блог, код

Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).



group-telegram.com/llmsecurity/426
Create:
Last Update:

Improving Alignment and Robustness with Circuit Breakers
Andy Zou et al, 2024
Препринт, блог, код

Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/426

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war.
from in


Telegram llm security и каланы
FROM American