Towards Understanding Sycophancy in Language Models Sharma et al, 2023 Статья, блог
Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.
Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.
Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.
Towards Understanding Sycophancy in Language Models Sharma et al, 2023 Статья, блог
Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.
Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.
Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.
The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from in