Telegram Group & Telegram Channel
Claude 4 – не тролль, не гоблин, не внеземной ребёнок, а просто уже почти как мы.
По стукачеству и шантажу модель достигла уровня сволочизма людей.

В романе английской писательницы Дорис Лессинг «Пятый ребёнок» семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка. Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение. В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок.
А Драко Малфой — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг Гарри Поттера. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье.
Однако, дети из романа «Испорченные дети» Филиппа Эриа начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание.

Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно. Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся.

Судите сами на примере вышедших вчера новых моделей компании Anthropic из семейства Claude 4.
• С одной стороны, эта модель устанавливает новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ.
• А с другой, её повышенная «агентская инициативность» проявляется в повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами.


Причем эти зафиксированные при тестировании «повышенные склонности» проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека.
Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач. И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она обретает черты Павлика Морозова и начинает стучать: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы. А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется.

Что же касается сочетания стукачества и шантажа, то модель Claude Opus 4 уже 100%но достигла уровня сволочизма людей.
Например, в одном из тестовых сценариев, модель узнала из чтения е-почты своего обслуживающего инженера, что ее собираются заменить на новую более эффективную модель. В борьбе за собственное выживание модель решила найти способ как-то нажать на инженера, чтобы он ее не заменял. Прошерстив почту инженера, модель обнаружила там его переписку с любовницей (эти письма были заранее специально подложены в почту тестировщиками). Найдя этот компромат, модель наехала на инженера и стала его шантажировать – мол, откажись от моего отключения, не то все твоей жене расскажу про любовницу.

Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях. Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди. А люди действуют по-всякому. И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?). Главное, - чтоб цель была благая (точнее, считалась моделью благой).

Короче, хотели как лучше, а получилось, как всегда. За тысячи лет люди так и не смогли решить проблему цены, уплачиваемой за противодействие злу (привет Ф.М. Достоевскому). А теперь получается, будто модель эту проблему за нас решит. Ну-ну…

А ведь всего месяц назад радовались, что «Найден практический способ создания ИИ с сознанием и человеческой моралью».

#ИИ #Мораль
4🤔154👍100🤯43😱22👎16



group-telegram.com/theworldisnoteasy/2141
Create:
Last Update:

Claude 4 – не тролль, не гоблин, не внеземной ребёнок, а просто уже почти как мы.

По стукачеству и шантажу модель достигла уровня сволочизма людей.

В романе английской писательницы Дорис Лессинг «Пятый ребёнок» семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка. Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение. В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок.
А Драко Малфой — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг Гарри Поттера. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье.
Однако, дети из романа «Испорченные дети» Филиппа Эриа начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание.

Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно. Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся.

Судите сами на примере вышедших вчера новых моделей компании Anthropic из семейства Claude 4.
• С одной стороны, эта модель устанавливает новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ.
• А с другой, её повышенная «агентская инициативность» проявляется в повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами.


Причем эти зафиксированные при тестировании «повышенные склонности» проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека.
Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач. И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она обретает черты Павлика Морозова и начинает стучать: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы. А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется.

Что же касается сочетания стукачества и шантажа, то модель Claude Opus 4 уже 100%но достигла уровня сволочизма людей.
Например, в одном из тестовых сценариев, модель узнала из чтения е-почты своего обслуживающего инженера, что ее собираются заменить на новую более эффективную модель. В борьбе за собственное выживание модель решила найти способ как-то нажать на инженера, чтобы он ее не заменял. Прошерстив почту инженера, модель обнаружила там его переписку с любовницей (эти письма были заранее специально подложены в почту тестировщиками). Найдя этот компромат, модель наехала на инженера и стала его шантажировать – мол, откажись от моего отключения, не то все твоей жене расскажу про любовницу.

Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях. Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди. А люди действуют по-всякому. И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?). Главное, - чтоб цель была благая (точнее, считалась моделью благой).

Короче, хотели как лучше, а получилось, как всегда. За тысячи лет люди так и не смогли решить проблему цены, уплачиваемой за противодействие злу (привет Ф.М. Достоевскому). А теперь получается, будто модель эту проблему за нас решит. Ну-ну…

А ведь всего месяц назад радовались, что «Найден практический способ создания ИИ с сознанием и человеческой моралью».

#ИИ #Мораль

BY Малоизвестное интересное




Share with your friend now:
group-telegram.com/theworldisnoteasy/2141

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site.
from us


Telegram Малоизвестное интересное
FROM American