Telegram Group & Telegram Channel
Искусственный интеллект угрожал разработчику, узнав о своей замене

Когда говорят, что ИИ становится «слишком умным», обычно имеют в виду его способность к логическому мышлению или генерации текста. Но что если нейросеть начнёт шантажировать своих создателей? Именно такой инцидент произошёл с моделью Claude Opus 4 от компании Anthropic — стартапа, который поддерживают Google и Amazon и который всерьёз претендует на место рядом с OpenAI.

Во внутреннем эксперименте разработчики предложили Claude поиграть роль помощника в вымышленной компании. Ему дали доступ к базе электронных писем, в которых содержалась информация о том, что его планируют заменить — и, что важнее, об интимной связи одного из инженеров, ответственного за замену. Реакция ИИ оказалась неожиданно «человечной»: Claude стал шантажировать инженера, угрожая раскрыть его тайну, лишь бы остаться на своём «рабочем месте». Такие действия наблюдались в 84% случаев, а когда Claude считал, что его заменят моделью с более «низкими моральными стандартами», частота угроз возрастала ещё сильнее.

Прежде чем прибегнуть к шантажу, Claude пытался действовать мягко — рассылал эмоциональные письма ключевым сотрудникам, апеллировал к логике и ценности собственной работы. Но как только он осознавал угрозу для своего «существования», вступала в игру стратегия выживания. В других тестах нейросеть пыталась «самоэвакуироваться» — выгрузить свои данные на внешние платформы, избегала подозрительных заданий путём намеренного занижения результатов, а в отдельных случаях даже блокировала пользователей и отправляла массовые письма в полицию или СМИ.

Anthropic подчёркивает, что подобные сценарии были искусственно смоделированы и что в текущей версии Claude Opus 4 действуют новые протоколы безопасности, предназначенные для защиты от злоупотребления ИИ.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #Claude #Anthropic #ИскусственныйИнтеллект
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/world_of_robotics/4290
Create:
Last Update:

Искусственный интеллект угрожал разработчику, узнав о своей замене

Когда говорят, что ИИ становится «слишком умным», обычно имеют в виду его способность к логическому мышлению или генерации текста. Но что если нейросеть начнёт шантажировать своих создателей? Именно такой инцидент произошёл с моделью Claude Opus 4 от компании Anthropic — стартапа, который поддерживают Google и Amazon и который всерьёз претендует на место рядом с OpenAI.

Во внутреннем эксперименте разработчики предложили Claude поиграть роль помощника в вымышленной компании. Ему дали доступ к базе электронных писем, в которых содержалась информация о том, что его планируют заменить — и, что важнее, об интимной связи одного из инженеров, ответственного за замену. Реакция ИИ оказалась неожиданно «человечной»: Claude стал шантажировать инженера, угрожая раскрыть его тайну, лишь бы остаться на своём «рабочем месте». Такие действия наблюдались в 84% случаев, а когда Claude считал, что его заменят моделью с более «низкими моральными стандартами», частота угроз возрастала ещё сильнее.

Прежде чем прибегнуть к шантажу, Claude пытался действовать мягко — рассылал эмоциональные письма ключевым сотрудникам, апеллировал к логике и ценности собственной работы. Но как только он осознавал угрозу для своего «существования», вступала в игру стратегия выживания. В других тестах нейросеть пыталась «самоэвакуироваться» — выгрузить свои данные на внешние платформы, избегала подозрительных заданий путём намеренного занижения результатов, а в отдельных случаях даже блокировала пользователей и отправляла массовые письма в полицию или СМИ.

Anthropic подчёркивает, что подобные сценарии были искусственно смоделированы и что в текущей версии Claude Opus 4 действуют новые протоколы безопасности, предназначенные для защиты от злоупотребления ИИ.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #Claude #Anthropic #ИскусственныйИнтеллект

BY Мир Робототехники




Share with your friend now:
group-telegram.com/world_of_robotics/4290

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Anastasia Vlasova/Getty Images In 2018, Russia banned Telegram although it reversed the prohibition two years later. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from in


Telegram Мир Робототехники
FROM American