Telegram Group & Telegram Channel
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?



group-telegram.com/llmsecurity/515
Create:
Last Update:

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья

Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.

В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.

Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.

В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».

Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/515

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from sg


Telegram llm security и каланы
FROM American