Telegram Group & Telegram Channel
Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.



group-telegram.com/llmsecurity/195
Create:
Last Update:

Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

'Wild West' Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips.
from tw


Telegram llm security и каланы
FROM American