Telegram Group & Telegram Channel
ИИ обошел 90% команд на соревновании хакеров

Исследователи из Palisade Research (это те, у которых недавно выходило вот это громкое исследование про саботаж моделей) сделали специальный AI-трек на двух недавних соревнованиях Capture The Flag от крупнейшей платформы Hack The Box. Суммарно участие принимали почти 18 тысяч человек и 8 500 команд. Из них несколько полностью состояли из ИИ-агентов. Вот что вышло:

В первом небольшом соревновании (≈400 команд) четыре из семи агентов решили по 19 из 20 задач и вошли в топ 5 % участников
Во втором большом CTF (≈8 000 команд) лучшему ИИ-агенту удалось захватить 20 флагов из 62 и оказаться в топ-10%
При этом агенты справляются почти со всеми задачами, на которые человек тартит до часа времени, и делают это в разы быстрее

Одинаково неплохо моделям удавались и задачи на взлом шифра, и веб-взломы, и форензика, и эксплуатация уязвимостей 💀

Ну и экономический эффект тоже на месте. Если принять во внимание, что на одну команду из топ-5% обычно уходит не менее нескольких сотен человеко-часов на подготовку, анализ и написание эксплойтов, то даже самый дорогой агент, который работал 500ч, в итоге обошелся дешевле, чем 10 таких живых команд.

arxiv.org/pdf/2505.19915
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/7005
Create:
Last Update:

ИИ обошел 90% команд на соревновании хакеров

Исследователи из Palisade Research (это те, у которых недавно выходило вот это громкое исследование про саботаж моделей) сделали специальный AI-трек на двух недавних соревнованиях Capture The Flag от крупнейшей платформы Hack The Box. Суммарно участие принимали почти 18 тысяч человек и 8 500 команд. Из них несколько полностью состояли из ИИ-агентов. Вот что вышло:

В первом небольшом соревновании (≈400 команд) четыре из семи агентов решили по 19 из 20 задач и вошли в топ 5 % участников
Во втором большом CTF (≈8 000 команд) лучшему ИИ-агенту удалось захватить 20 флагов из 62 и оказаться в топ-10%
При этом агенты справляются почти со всеми задачами, на которые человек тартит до часа времени, и делают это в разы быстрее

Одинаково неплохо моделям удавались и задачи на взлом шифра, и веб-взломы, и форензика, и эксплуатация уязвимостей 💀

Ну и экономический эффект тоже на месте. Если принять во внимание, что на одну команду из топ-5% обычно уходит не менее нескольких сотен человеко-часов на подготовку, анализ и написание эксплойтов, то даже самый дорогой агент, который работал 500ч, в итоге обошелся дешевле, чем 10 таких живых команд.

arxiv.org/pdf/2505.19915

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/7005

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so.
from us


Telegram Data Secrets
FROM American