Notice: file_put_contents(): Write of 7529 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 23913 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Малоизвестное интересное | Telegram Webview: theworldisnoteasy/2141 -
Telegram Group & Telegram Channel
Claude 4 – не тролль, не гоблин, не внеземной ребёнок, а просто уже почти как мы.
По стукачеству и шантажу модель достигла уровня сволочизма людей.

В романе английской писательницы Дорис Лессинг «Пятый ребёнок» семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка. Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение. В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок.
А Драко Малфой — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг Гарри Поттера. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье.
Однако, дети из романа «Испорченные дети» Филиппа Эриа начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание.

Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно. Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся.

Судите сами на примере вышедших вчера новых моделей компании Anthropic из семейства Claude 4.
• С одной стороны, эта модель устанавливает новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ.
• А с другой, её повышенная «агентская инициативность» проявляется в повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами.


Причем эти зафиксированные при тестировании «повышенные склонности» проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека.
Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач. И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она обретает черты Павлика Морозова и начинает стучать: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы. А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется.

Что же касается сочетания стукачества и шантажа, то модель Claude Opus 4 уже 100%но достигла уровня сволочизма людей.
Например, в одном из тестовых сценариев, модель узнала из чтения е-почты своего обслуживающего инженера, что ее собираются заменить на новую более эффективную модель. В борьбе за собственное выживание модель решила найти способ как-то нажать на инженера, чтобы он ее не заменял. Прошерстив почту инженера, модель обнаружила там его переписку с любовницей (эти письма были заранее специально подложены в почту тестировщиками). Найдя этот компромат, модель наехала на инженера и стала его шантажировать – мол, откажись от моего отключения, не то все твоей жене расскажу про любовницу.

Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях. Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди. А люди действуют по-всякому. И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?). Главное, - чтоб цель была благая (точнее, считалась моделью благой).

Короче, хотели как лучше, а получилось, как всегда. За тысячи лет люди так и не смогли решить проблему цены, уплачиваемой за противодействие злу (привет Ф.М. Достоевскому). А теперь получается, будто модель эту проблему за нас решит. Ну-ну…

А ведь всего месяц назад радовались, что «Найден практический способ создания ИИ с сознанием и человеческой моралью».

#ИИ #Мораль
4🤔154👍100🤯43😱22👎16



group-telegram.com/theworldisnoteasy/2141
Create:
Last Update:

Claude 4 – не тролль, не гоблин, не внеземной ребёнок, а просто уже почти как мы.

По стукачеству и шантажу модель достигла уровня сволочизма людей.

В романе английской писательницы Дорис Лессинг «Пятый ребёнок» семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка. Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение. В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок.
А Драко Малфой — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг Гарри Поттера. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье.
Однако, дети из романа «Испорченные дети» Филиппа Эриа начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание.

Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно. Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся.

Судите сами на примере вышедших вчера новых моделей компании Anthropic из семейства Claude 4.
• С одной стороны, эта модель устанавливает новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ.
• А с другой, её повышенная «агентская инициативность» проявляется в повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами.


Причем эти зафиксированные при тестировании «повышенные склонности» проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека.
Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач. И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она обретает черты Павлика Морозова и начинает стучать: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы. А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется.

Что же касается сочетания стукачества и шантажа, то модель Claude Opus 4 уже 100%но достигла уровня сволочизма людей.
Например, в одном из тестовых сценариев, модель узнала из чтения е-почты своего обслуживающего инженера, что ее собираются заменить на новую более эффективную модель. В борьбе за собственное выживание модель решила найти способ как-то нажать на инженера, чтобы он ее не заменял. Прошерстив почту инженера, модель обнаружила там его переписку с любовницей (эти письма были заранее специально подложены в почту тестировщиками). Найдя этот компромат, модель наехала на инженера и стала его шантажировать – мол, откажись от моего отключения, не то все твоей жене расскажу про любовницу.

Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях. Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди. А люди действуют по-всякому. И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?). Главное, - чтоб цель была благая (точнее, считалась моделью благой).

Короче, хотели как лучше, а получилось, как всегда. За тысячи лет люди так и не смогли решить проблему цены, уплачиваемой за противодействие злу (привет Ф.М. Достоевскому). А теперь получается, будто модель эту проблему за нас решит. Ну-ну…

А ведь всего месяц назад радовались, что «Найден практический способ создания ИИ с сознанием и человеческой моралью».

#ИИ #Мораль

BY Малоизвестное интересное




Share with your friend now:
group-telegram.com/theworldisnoteasy/2141

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Founder Pavel Durov says tech is meant to set you free The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs.
from us


Telegram Малоизвестное интересное
FROM American