Telegram Group & Telegram Channel
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?



group-telegram.com/llmsecurity/515
Create:
Last Update:

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/515

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from jp


Telegram llm security и каланы
FROM American