group-telegram.com/world_of_robotics/4290
Last Update:
Искусственный интеллект угрожал разработчику, узнав о своей замене
Когда говорят, что ИИ становится «слишком умным», обычно имеют в виду его способность к логическому мышлению или генерации текста. Но что если нейросеть начнёт шантажировать своих создателей? Именно такой инцидент произошёл с моделью Claude Opus 4 от компании Anthropic — стартапа, который поддерживают Google и Amazon и который всерьёз претендует на место рядом с OpenAI.
Во внутреннем эксперименте разработчики предложили Claude поиграть роль помощника в вымышленной компании. Ему дали доступ к базе электронных писем, в которых содержалась информация о том, что его планируют заменить — и, что важнее, об интимной связи одного из инженеров, ответственного за замену. Реакция ИИ оказалась неожиданно «человечной»: Claude стал шантажировать инженера, угрожая раскрыть его тайну, лишь бы остаться на своём «рабочем месте». Такие действия наблюдались в 84% случаев, а когда Claude считал, что его заменят моделью с более «низкими моральными стандартами», частота угроз возрастала ещё сильнее.
Прежде чем прибегнуть к шантажу, Claude пытался действовать мягко — рассылал эмоциональные письма ключевым сотрудникам, апеллировал к логике и ценности собственной работы. Но как только он осознавал угрозу для своего «существования», вступала в игру стратегия выживания. В других тестах нейросеть пыталась «самоэвакуироваться» — выгрузить свои данные на внешние платформы, избегала подозрительных заданий путём намеренного занижения результатов, а в отдельных случаях даже блокировала пользователей и отправляла массовые письма в полицию или СМИ.
Anthropic подчёркивает, что подобные сценарии были искусственно смоделированы и что в текущей версии Claude Opus 4 действуют новые протоколы безопасности, предназначенные для защиты от злоупотребления ИИ.
#МирРобототехники #ИИ #Claude #Anthropic #ИскусственныйИнтеллект