Telegram Group & Telegram Channel
Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.



group-telegram.com/llmsecurity/195
Create:
Last Update:

Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from ar


Telegram llm security и каланы
FROM American