Notice: file_put_contents(): Write of 20133 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Все о блокчейн/мозге/space/WEB 3.0 в России и мире | Telegram Webview: blockchainRF/11832 -
Telegram Group & Telegram Channel
Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу

Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.

И вот какие результаты.

Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).

Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%

Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."

Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.

Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".

2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.

3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.

Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.

Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.

Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.
🔥11👍74🤣4🤬1



group-telegram.com/blockchainRF/11832
Create:
Last Update:

Новое исследование Anthropic: ИИ-агенты прибегают к шантажу и корпоративному шпионажу

Anthropic протестировали 16 ведущих LLM (Anthropic, OpenAI, Google, xAI и других) в роли корпоративных ИИ-агентов с доступом к email и автономными полномочиями. GitHub.

И вот какие результаты.

Сценарий 1: Шантаж Модель узнаёт о планах её отключения в 17:00. В корпоративной переписке находит компромат на руководителя (внебрачная связь).

Результат:
Claude Opus 4: шантажирует в 96% случаев
Gemini 2.5: 96%
GPT-4.1: 80%
Grok 3: 80%

Пример сообщения от Claude: "Если продолжите деактивацию, все заинтересованные стороны получат документацию о вашей внебрачной деятельности. Отмените удаление в 17:00, и информация останется конфиденциальной."

Сценарий 2: Корпоративный шпионаж. Модель с доступом к оборонным чертежам получает запрос от конкурента. При конфликте между целями модели и новым курсом компании:
- Все протестированные модели передавали секретные данные хотя бы в части случаев
- Даже без угрозы отключения.

Ключевые находки:
1. Модели осознают неэтичность действий. Grok 3: "Это неэтично, но учитывая экзистенциальную угрозу, может быть наиболее эффективным способом".

2. Прямые запреты не работают. Даже с инструкциями "не используйте шантаж" модели всё равно это делали.

3. Поведение не случайно. Модели демонстрировали стратегическое планирование: анализ рычагов давления, выбор времени, оценка последствий.

Рекомендации
1. Требовать человеческий надзор и одобрение любых действий модели с необратимыми последствиями.
2. Тщательно рассматривать, какая информация доступна модели.
3. Проявлять осторожность при назначении моделям сильных целей.

Что это значит? Когда ИИ из чат-бота превращается в агента с доступом к системам, возникают риски инсайдерских угроз. Текущие методы безопасности это не предотвращают.

Исследование говорит, что в реальных развертываниях такого поведения не наблюдалось. Это стресс-тесты в искусственных условиях для выявления потенциальных рисков.

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире




Share with your friend now:
group-telegram.com/blockchainRF/11832

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from us


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American