Telegram Group & Telegram Channel
Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу

Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.

И вот какие результаты.

Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).

Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%

Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."

Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.

Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".

2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.

3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.

Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.

Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.

Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.
🔥11👍74🤣4🤬1



group-telegram.com/blockchainRF/11832
Create:
Last Update:

Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу

Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.

И вот какие результаты.

Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).

Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%

Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."

Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.

Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".

2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.

3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.

Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.

Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.

Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире




Share with your friend now:
group-telegram.com/blockchainRF/11832

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from us


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American