group-telegram.com/aim_servicesandeducation/150
Last Update:
🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.
⚙Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.
✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".
Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.
💡Что важно уже сейчас, выводы исследования:
• Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
• Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
• Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
• Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)
❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?
На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.
#ИИ #chatgpt_для_аудитора
BY A.I.M | Audit.Integrity.Management
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/aim_servicesandeducation/150