Telegram Group & Telegram Channel
Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.



group-telegram.com/llmsecurity/10
Create:
Last Update:

Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/10

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%.
from de


Telegram llm security и каланы
FROM American