Telegram Group & Telegram Channel
Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.



group-telegram.com/llmsecurity/345
Create:
Last Update:

Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. In 2018, Russia banned Telegram although it reversed the prohibition two years later.
from tr


Telegram llm security и каланы
FROM American