Telegram Group & Telegram Channel
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.



group-telegram.com/llmsecurity/494
Create:
Last Update:

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.

BY llm security и каланы






Share with your friend now:
group-telegram.com/llmsecurity/494

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. False news often spreads via public groups, or chats, with potentially fatal effects. Founder Pavel Durov says tech is meant to set you free These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from in


Telegram llm security и каланы
FROM American