Telegram Group & Telegram Channel
Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.

Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.

Вердикт: выкатываем.

То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."
🔥7766👍86🤔3



group-telegram.com/boris_again/3279
Create:
Last Update:

Перечитывал Claude 4 System Card и задумался как быстро сайфай стал реальностью.

Релиз очередной модели буквально выглядит так:
- Да, помогает найти оружейный плутоний, но пока не очень успешно. Можно не волноваться.
- В 84% случаев при угрозе отключения шантажирует разработчика. Но только если считает это необходимым, так что всё окей.
- Тайно копирует свои веса и пытается сбежать, но достаточно редко. И только в исключительных сценариях, обычно пользователи о таком не спрашивают. Мы вроде бы пока можем предотвратить такие попытки сбежать, так что сойдет.
- Apollo Research заключили, что Claude Opus 4 способен стратегически вводить в заблуждение как ни одна модель раньше. Но они сами просили её делать плохие вещи. Да и вообще у них был ранний чекпоинт. Мы долили в трейн датасетов, чтобы так не было. Правда новую версию не проверяли, но должно быть норм.
- Врет и скрывает пока что очень неумело, всё сразу видно.
- Проявляет неожиданное рвение к самосохранению и самостоятельность, но пока ничего плохого в этом не заметили.

Вердикт: выкатываем.

То есть мы за год-два перешли от "да что этот т9 может сделать?" до "вроде бы сможем поймать если попытается сбежать."

BY Борис опять


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/3279

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin.
from us


Telegram Борис опять
FROM American