Telegram Group & Telegram Channel
🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора
🔥73



group-telegram.com/aim_servicesandeducation/150
Create:
Last Update:

🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора

BY A.I.M | Audit.Integrity.Management


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/aim_servicesandeducation/150

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. He adds: "Telegram has become my primary news source." Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram.
from fr


Telegram A.I.M | Audit.Integrity.Management
FROM American