AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents Edoardo Debenedetti et al., 2024 Статья, код
Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.
А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents Edoardo Debenedetti et al., 2024 Статья, код
Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.
А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.
It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from ms