Все о блокчейн/мозге/space/WEB 3.0 в России и мире

Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу

Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.

И вот какие результаты.

Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).

Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%

Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."

Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.

Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".

2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.

3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.

Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.

Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.

Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.

Anthropic

Agentic Misalignment: How LLMs could be insider threats

New research on simulated blackmail, industrial espionage, and other misaligned behaviors in LLMs

🔥11👍7❤4🤣4🤬1

www.group-telegram.com/us/blockchainRF.com/11832

2.89K viewsJun 23 at 08:25