Telegram Group & Telegram Channel
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.



group-telegram.com/llmsecurity/327
Create:
Last Update:

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/327

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Founder Pavel Durov says tech is meant to set you free The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from sg


Telegram llm security и каланы
FROM American