Telegram Group & Telegram Channel
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.



group-telegram.com/llmsecurity/327
Create:
Last Update:

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/327

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from de


Telegram llm security и каланы
FROM American