Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-494-495-496-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
llm security и каланы | Telegram Webview: llmsecurity/494 -
Telegram Group & Telegram Channel
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.



group-telegram.com/llmsecurity/494
Create:
Last Update:

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.

BY llm security и каланы






Share with your friend now:
group-telegram.com/llmsecurity/494

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from us


Telegram llm security и каланы
FROM American