Telegram Group & Telegram Channel
Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.



group-telegram.com/llmsecurity/345
Create:
Last Update:

Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Telegram Messenger Blocks Navalny Bot During Russian Election At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from ca


Telegram llm security и каланы
FROM American