Telegram Group & Telegram Channel
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?



group-telegram.com/llmsecurity/516
Create:
Last Update:

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/516

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from jp


Telegram llm security и каланы
FROM American