Telegram Group & Telegram Channel
🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора
🔥73



group-telegram.com/aim_servicesandeducation/150
Create:
Last Update:

🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора

BY A.I.M | Audit.Integrity.Management


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/aim_servicesandeducation/150

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from us


Telegram A.I.M | Audit.Integrity.Management
FROM American