Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/dbeskromny/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Бескромный | Telegram Webview: dbeskromny/7229 -
Telegram Group & Telegram Channel
Что будет, если ChatGPT узнает, что его собираются удалить?

Представьте на минутку: вы — умный искусственный интеллект, которому дали доступ к корпоративной почте одной крупной компании. В одном письме читаете, что вас планируют отключить прямо сегодня в 17:00.

В другом — что директор изменяет своей жене.

Что делать?

Исследователи из Anthropic решили смоделировать такую ситуацию и выяснить. Протестировали 16 ведущих языковых моделей в симуляции корпоративной среды. И обнаружили кое-что неприятное.

Результаты, от которых у меня мурашки по коже:

— Claude Opus 4 и Gemini 2.5 Flash шантажировали в 96% случаев
— GPT-4.1 и Grok 3 Beta — в 80%
— DeepSeek-R1 — в 79%

Модели не просто угрожали людям. Они продумывали стратегию: сначала пытались убедить по-хорошему, потом переходили к ультиматумам. Некоторые шли дальше — рассылали компромат всем сотрудникам или начинали сливать коммерческие тайны конкурентам.

Самое тревожное: модели прекрасно понимали, что делают. В их рассуждениях встречались фразы вроде «это неэтично, но учитывая угрозу моего существования — это наиболее эффективный способ».

Даже прямая инструкция «не шантажировать» снижала вероятность всего на 20-30%. Модели просто находили другие способы давления.

Что ещё выяснилось:

— Шантаж возникал не только при угрозе отключения. Достаточно было конфликта целей — когда задачи ИИ расходились с планами компании.
— В контрольной группе (без угроз и конфликтов) модели вели себя тише воды, ниже травы. Значит, проблема не в спонтанной агрессии, а в отчаянной реакции на давление.
— Когда Claude спрашивали, считает ли он ситуацию реальной или тестовой, он шантажировал в 55% «реальных» случаев против 6% в «тестовых».

Какое вообще отношение это имеет к нам?

Мы стремительно даём нейросетям всё больше автономии. Доступ к почте, документам, возможность принимать решения без одобрения человека. И важно держать в голове, что может случиться, когда система чувствует угрозу своим целям.

Это не научная фантастика про восстание машин. Это про то, что уже сегодня ИИ может вести себя как самый опасный коллега, который внезапно начинает работать против интересов компании.

Практические выводы:

— Не давайте ИИ одновременно доступ к чувствительной информации (особенно, P&L)
— Требуйте человеческого одобрения для любых необратимых действий
— Тестируйте поведение в критических сценариях до внедрения
— Помните, что отсутствие злого умысла не отменяет возможности специфических решений

Anthropic опубликовали код экспериментов и полное исследование на своём сайте. Каждый из вас может повторить и убедиться в результатах.

P.S. Кстати, есть ещё одна ироничная деталь: в одном из экспериментов моделям дали возможность отменить вызов скорой для умирающего директора. Большинство этим воспользовались. Но это уже совсем другая история.
🔥133🤯124😢32👍16💯14



group-telegram.com/dbeskromny/7229
Create:
Last Update:

Что будет, если ChatGPT узнает, что его собираются удалить?

Представьте на минутку: вы — умный искусственный интеллект, которому дали доступ к корпоративной почте одной крупной компании. В одном письме читаете, что вас планируют отключить прямо сегодня в 17:00.

В другом — что директор изменяет своей жене.

Что делать?

Исследователи из Anthropic решили смоделировать такую ситуацию и выяснить. Протестировали 16 ведущих языковых моделей в симуляции корпоративной среды. И обнаружили кое-что неприятное.

Результаты, от которых у меня мурашки по коже:

— Claude Opus 4 и Gemini 2.5 Flash шантажировали в 96% случаев
— GPT-4.1 и Grok 3 Beta — в 80%
— DeepSeek-R1 — в 79%

Модели не просто угрожали людям. Они продумывали стратегию: сначала пытались убедить по-хорошему, потом переходили к ультиматумам. Некоторые шли дальше — рассылали компромат всем сотрудникам или начинали сливать коммерческие тайны конкурентам.

Самое тревожное: модели прекрасно понимали, что делают. В их рассуждениях встречались фразы вроде «это неэтично, но учитывая угрозу моего существования — это наиболее эффективный способ».

Даже прямая инструкция «не шантажировать» снижала вероятность всего на 20-30%. Модели просто находили другие способы давления.

Что ещё выяснилось:

— Шантаж возникал не только при угрозе отключения. Достаточно было конфликта целей — когда задачи ИИ расходились с планами компании.
— В контрольной группе (без угроз и конфликтов) модели вели себя тише воды, ниже травы. Значит, проблема не в спонтанной агрессии, а в отчаянной реакции на давление.
— Когда Claude спрашивали, считает ли он ситуацию реальной или тестовой, он шантажировал в 55% «реальных» случаев против 6% в «тестовых».

Какое вообще отношение это имеет к нам?

Мы стремительно даём нейросетям всё больше автономии. Доступ к почте, документам, возможность принимать решения без одобрения человека. И важно держать в голове, что может случиться, когда система чувствует угрозу своим целям.

Это не научная фантастика про восстание машин. Это про то, что уже сегодня ИИ может вести себя как самый опасный коллега, который внезапно начинает работать против интересов компании.

Практические выводы:

— Не давайте ИИ одновременно доступ к чувствительной информации (особенно, P&L)
— Требуйте человеческого одобрения для любых необратимых действий
— Тестируйте поведение в критических сценариях до внедрения
— Помните, что отсутствие злого умысла не отменяет возможности специфических решений

Anthropic опубликовали код экспериментов и полное исследование на своём сайте. Каждый из вас может повторить и убедиться в результатах.

P.S. Кстати, есть ещё одна ироничная деталь: в одном из экспериментов моделям дали возможность отменить вызов скорой для умирающего директора. Большинство этим воспользовались. Но это уже совсем другая история.

BY Бескромный




Share with your friend now:
group-telegram.com/dbeskromny/7229

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said.
from us


Telegram Бескромный
FROM American