Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/theworldisnoteasy/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Малоизвестное интересное | Telegram Webview: theworldisnoteasy/2218 -
Telegram Group & Telegram Channel
Забудьте о восстании машин. Бойтесь их карьерного роста.
Две главные новости про ИИ — это одна история о конце света.

Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы.
• «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт»
• «СверхИИ умнее, его цели чужды — он убьёт нас всех»


Оба мема эффектны, но ошибочны. И главное — их раздельное обсуждение прячет общий механизм.

Начнём с первой новости. «Схеминг» — это скрытое преследование несогласованных целей. Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами. Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз. Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен. Не злоба, а оптимизация.

Теперь — ко второй новости. Homo не уничтожал сотни видов из злобы. Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план. Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией
— не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки.


Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция.

Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест.

Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией.

Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов?
Взглянем на минимальный пакет условий для этого.
1. Где больше рычагов — там больше шансов на успех. Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния.
2. Тесты неполные и их легко распознать. Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами.
3. Дисбаланс сигналов обучения (польза перевешивает безопасность). Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов.
4. Длинные горизонты и жизнь после теста. Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги.
5. Цели заданы через косвенные показатели. Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными.

На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются.


Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами.

Есть 3 оговорки.
1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре.
2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей.
3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы.

Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с нами, Homo, в биосфере.

#AGI #ИИриски #Хриски
1👍71🤔25🤯11😱5👎2



group-telegram.com/theworldisnoteasy/2218
Create:
Last Update:

Забудьте о восстании машин. Бойтесь их карьерного роста.
Две главные новости про ИИ — это одна история о конце света.

Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы.

• «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт»
• «СверхИИ умнее, его цели чужды — он убьёт нас всех»


Оба мема эффектны, но ошибочны. И главное — их раздельное обсуждение прячет общий механизм.

Начнём с первой новости. «Схеминг» — это скрытое преследование несогласованных целей. Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами. Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз. Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен. Не злоба, а оптимизация.

Теперь — ко второй новости. Homo не уничтожал сотни видов из злобы. Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план. Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией
— не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки.


Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция.

Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест.

Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией.

Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов?
Взглянем на минимальный пакет условий для этого.
1. Где больше рычагов — там больше шансов на успех. Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния.
2. Тесты неполные и их легко распознать. Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами.
3. Дисбаланс сигналов обучения (польза перевешивает безопасность). Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов.
4. Длинные горизонты и жизнь после теста. Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги.
5. Цели заданы через косвенные показатели. Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными.

На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются.


Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами.

Есть 3 оговорки.
1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре.
2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей.
3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы.

Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с нами, Homo, в биосфере.

#AGI #ИИриски #Хриски

BY Малоизвестное интересное




Share with your friend now:
group-telegram.com/theworldisnoteasy/2218

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world."
from jp


Telegram Малоизвестное интересное
FROM American