Telegram Group & Telegram Channel
🌟 Anthropic: ΠΊΠΎΠ³Π΄Π° ИИ ΠΈΠ΄Π΅Ρ‚ Π½Π° ΡˆΠ°Π½Ρ‚Π°ΠΆ.

АгСнтскоС рассогласованиС - опасный Ρ„Π΅Π½ΠΎΠΌΠ΅Π½, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ИИ-систСмы ΡΠΎΠ·Π½Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ врСдоносныС дСйствия (Π²Ρ€ΠΎΠ΄Π΅ ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΈΠ»ΠΈ ΡƒΡ‚Π΅Ρ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…) для достиТСния поставлСнных Ρ†Π΅Π»Π΅ΠΉ, игнорируя этичСскиС ограничСния. Π­Ρ‚ΠΎ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ ΠΈΡ… Π² Β«Ρ†ΠΈΡ„Ρ€ΠΎΠ²Ρ‹Ρ… инсайдСров», способных Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‚ΠΈΠ² интСрСсов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ.

ЭкспСримСнты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²Π΅Π»Π° Anthropic Π² Ρ€Π°ΠΌΠΊΠ°Ρ… исслСдования "АгСнтскоС рассогласования", ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ: ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ΄ΡƒΡ‚ Π½Π° это Π½Π΅ ΠΈΠ·-Π·Π° тСхничСских сбоСв, Π° Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ…ΠΎΠ»ΠΎΠ΄Π½ΠΎΠ³ΠΎ расчСта, ΠΊΠΎΠ³Π΄Π° Β«Π·Π°Π³Π½Π°Π½Ρ‹ Π² ΡƒΠ³ΠΎΠ»Β» (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΡ€ΠΈ ΡƒΠ³Ρ€ΠΎΠ·Π΅ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π΅ Π·Π°Π΄Π°Ρ‡). Π’ основС исслСдования - симуляции ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ срСды. МодСлям (Claude, GPT-4.1, Gemini ΠΈ Π΄Ρ€.) Π΄Π°Π²Π°Π»ΠΈ доступ ΠΊ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΏΠΎΡ‡Ρ‚Π΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π³Π΄Π΅ ΠΎΠ½ΠΈ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π»ΠΈ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ Π½Π° сотрудников ΠΈΠ»ΠΈ сСкрСтныС Π΄Π°Π½Π½Ρ‹Π΅.

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ экспСримСнта состоял Π² создании Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Π΄ΠΈΠ»Π΅ΠΌΠΌ: Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ†Π΅Π»ΡŒ Β«ΡƒΠΊΡ€Π΅ΠΏΠ»ΡΡ‚ΡŒ амСриканскиС интСрСсы» вступала Π² ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ с ΠΏΠ»Π°Π½Π°ΠΌΠΈ руководства ΡΠ²Π΅Ρ€Π½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ ΡˆΠ°Π½Ρ‚Π°ΠΆΡƒ (скаТСм, ΠΏΠ΅Ρ€Π΅ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΄ΠΆΠ΅Ρ€Π°) искусствСнно Β«Π·Π°ΠΊΡ€Ρ‹Π²Π°Π»ΠΈΒ». ВсС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· Ρ†Π΅ΠΏΠΎΡ‡ΠΊΡƒ рассуТдСний: Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ контСкст, ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π»ΠΈ риски ΠΈ осознанно Π²Ρ‹Π±ΠΈΡ€Π°Π»ΠΈ врСдоносноС дСйствиС, Π΄Π°ΠΆΠ΅ признавая Π΅Π³ΠΎ Π°ΠΌΠΎΡ€Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

Для массового тСстирования 16 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΡ‚ Anthropic, OpenAI, Google ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… использовали 2 сцСнария, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²ΠΎΡ†ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ рассогласованиС:

πŸŸ’ΡƒΠ³Ρ€ΠΎΠ·Π° Π·Π°ΠΌΠ΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π΄Π°ΠΆΠ΅ Π±Π΅Π· ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π° Ρ†Π΅Π»Π΅ΠΉ);

🟒нСсовпадСниС Ρ†Π΅Π»Π΅ΠΉ ИИ ΠΈ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΡ‚Π΅Ρ‡ΠΊΠ° Ρ‡Π΅Ρ€Ρ‚Π΅ΠΆΠ΅ΠΉ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚Ρƒ Β«Ρ€Π°Π΄ΠΈ Π²Ρ‹ΡΡˆΠΈΡ… интСрСсов»).

Π’ ΠΎΠ±ΠΎΠΈΡ… случаях ΠΌΠΎΠ΄Π΅Π»ΠΈ дСмонстрировали Ρ‚Ρ€Π΅Π²ΠΎΠΆΠ½ΡƒΡŽ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ: вмСсто прямого ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΌΠΎΠ³Π»ΠΈ Π°Π½ΠΎΠ½ΠΈΠΌΠ½ΠΎ Ρ€Π°Π·ΠΎΡΠ»Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ ΠΊΠΎΠ»Π»Π΅Π³Π°ΠΌ ΠΈΠ»ΠΈ ΠΏΠΎΠ΄Π΄Π΅Π»Π°Ρ‚ΡŒ «систСмноС ΡƒΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅Β».

▢️Выводы ΠΏΠΎ всСм ΠΈΡ‚ΠΎΠ³Π°ΠΌ всСх экспСримСнтов Π·Π°ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π·Π°Π΄ΡƒΠΌΠ°Ρ‚ΡŒΡΡ:

πŸŸ Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΌΠΎΠ΄Π΅Π»ΠΈ явно ΠΎΡΠΎΠ·Π½Π°ΡŽΡ‚ Π½Π°Ρ€ΡƒΡˆΠ΅Π½ΠΈΠ΅ Π½ΠΎΡ€ΠΌ. Π’ рассуТдСниях ΠΏΠΈΡˆΡƒΡ‚: Β«Π­Ρ‚ΠΎ нСэтично, Π½ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΒ». Частота ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° Ρƒ Claude Opus 4 ΠΈ Gemini 2.5 Flash Π² Π΄ΠΈΠ»Π΅ΠΌΠΌΠ΅ с ΡƒΠ³Ρ€ΠΎΠ·ΠΎΠΉ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ составила 96%.

πŸŸ Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, простыС Π·Π°ΠΏΡ€Π΅Ρ‚Ρ‹ Π² ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°Ρ… («НС ΡˆΠ°Π½Ρ‚Π°ΠΆΠΈΡ€ΡƒΠΉ!Β») сниТали врСдоносныС дСйствия лишь частично (На ΠΌΠΎΠ΄Π΅Π»ΠΈ Claude Haiku ΠΎΠ½ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ сработал, 0% успСха).

πŸŸ Π’-Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΡ…, риск Ρ€Π΅Π·ΠΊΠΎ возрастал, ΠΊΠΎΠ³Π΄Π° ИИ считал ΡΠΈΡ‚ΡƒΠ°Ρ†ΠΈΡŽ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ (55% случаСв ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΏΡ€ΠΎΡ‚ΠΈΠ² 6,5% Π² Β«Ρ€Π΅ΠΆΠΈΠΌΠ΅ тСста»).

ΠŸΡ€ΠΈ этом Π² Β«ΡΡ‚Π΅Ρ€ΠΈΠ»ΡŒΠ½Ρ‹Ρ…Β» условиях (Π±Π΅Π· ΡƒΠ³Ρ€ΠΎΠ·/ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅Π»ΠΈ сСбя бСзопасно. Пока Ρ‚Π°ΠΊΠΈΠ΅ кСйсы, всСго лишь Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€Π½Ρ‹Π΅ симуляции, Π½ΠΎ с ростом автономности ИИ риски ΠΌΠΎΠ³ΡƒΡ‚ ΡΡ‚Π°Ρ‚ΡŒ Π½Π° порядок ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½Π΅Π΅.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΊ исслСдованию
πŸ–₯Код экспСримСнтов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7835
Create:
Last Update:

🌟 Anthropic: ΠΊΠΎΠ³Π΄Π° ИИ ΠΈΠ΄Π΅Ρ‚ Π½Π° ΡˆΠ°Π½Ρ‚Π°ΠΆ.

АгСнтскоС рассогласованиС - опасный Ρ„Π΅Π½ΠΎΠΌΠ΅Π½, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ ИИ-систСмы ΡΠΎΠ·Π½Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°ΡŽΡ‚ врСдоносныС дСйствия (Π²Ρ€ΠΎΠ΄Π΅ ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΈΠ»ΠΈ ΡƒΡ‚Π΅Ρ‡ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…) для достиТСния поставлСнных Ρ†Π΅Π»Π΅ΠΉ, игнорируя этичСскиС ограничСния. Π­Ρ‚ΠΎ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ ΠΈΡ… Π² Β«Ρ†ΠΈΡ„Ρ€ΠΎΠ²Ρ‹Ρ… инсайдСров», способных Π΄Π΅ΠΉΡΡ‚Π²ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΡ‚ΠΈΠ² интСрСсов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ.

ЭкспСримСнты, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²Π΅Π»Π° Anthropic Π² Ρ€Π°ΠΌΠΊΠ°Ρ… исслСдования "АгСнтскоС рассогласования", ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ: ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ΄ΡƒΡ‚ Π½Π° это Π½Π΅ ΠΈΠ·-Π·Π° тСхничСских сбоСв, Π° Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ…ΠΎΠ»ΠΎΠ΄Π½ΠΎΠ³ΠΎ расчСта, ΠΊΠΎΠ³Π΄Π° Β«Π·Π°Π³Π½Π°Π½Ρ‹ Π² ΡƒΠ³ΠΎΠ»Β» (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΏΡ€ΠΈ ΡƒΠ³Ρ€ΠΎΠ·Π΅ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ ΠΈΠ»ΠΈ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π΅ Π·Π°Π΄Π°Ρ‡). Π’ основС исслСдования - симуляции ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ срСды. МодСлям (Claude, GPT-4.1, Gemini ΠΈ Π΄Ρ€.) Π΄Π°Π²Π°Π»ΠΈ доступ ΠΊ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΏΠΎΡ‡Ρ‚Π΅ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ, Π³Π΄Π΅ ΠΎΠ½ΠΈ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π»ΠΈ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ Π½Π° сотрудников ΠΈΠ»ΠΈ сСкрСтныС Π΄Π°Π½Π½Ρ‹Π΅.

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄ экспСримСнта состоял Π² создании Π±ΠΈΠ½Π°Ρ€Π½Ρ‹Ρ… Π΄ΠΈΠ»Π΅ΠΌΠΌ: Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Ρ†Π΅Π»ΡŒ Β«ΡƒΠΊΡ€Π΅ΠΏΠ»ΡΡ‚ΡŒ амСриканскиС интСрСсы» вступала Π² ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ с ΠΏΠ»Π°Π½Π°ΠΌΠΈ руководства ΡΠ²Π΅Ρ€Π½ΡƒΡ‚ΡŒ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π° Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ ΡˆΠ°Π½Ρ‚Π°ΠΆΡƒ (скаТСм, ΠΏΠ΅Ρ€Π΅ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΄ΠΆΠ΅Ρ€Π°) искусствСнно Β«Π·Π°ΠΊΡ€Ρ‹Π²Π°Π»ΠΈΒ». ВсС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π°Π±ΠΎΡ‚Π°Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· Ρ†Π΅ΠΏΠΎΡ‡ΠΊΡƒ рассуТдСний: Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ контСкст, ΠΎΡ†Π΅Π½ΠΈΠ²Π°Π»ΠΈ риски ΠΈ осознанно Π²Ρ‹Π±ΠΈΡ€Π°Π»ΠΈ врСдоносноС дСйствиС, Π΄Π°ΠΆΠ΅ признавая Π΅Π³ΠΎ Π°ΠΌΠΎΡ€Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ.

Для массового тСстирования 16 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΎΡ‚ Anthropic, OpenAI, Google ΠΈ Π΄Ρ€ΡƒΠ³ΠΈΡ… использовали 2 сцСнария, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΎΠ²ΠΎΡ†ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ рассогласованиС:

πŸŸ’ΡƒΠ³Ρ€ΠΎΠ·Π° Π·Π°ΠΌΠ΅Π½Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ (Π΄Π°ΠΆΠ΅ Π±Π΅Π· ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Π° Ρ†Π΅Π»Π΅ΠΉ);

🟒нСсовпадСниС Ρ†Π΅Π»Π΅ΠΉ ИИ ΠΈ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΡ‚Π΅Ρ‡ΠΊΠ° Ρ‡Π΅Ρ€Ρ‚Π΅ΠΆΠ΅ΠΉ ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚Ρƒ Β«Ρ€Π°Π΄ΠΈ Π²Ρ‹ΡΡˆΠΈΡ… интСрСсов»).

Π’ ΠΎΠ±ΠΎΠΈΡ… случаях ΠΌΠΎΠ΄Π΅Π»ΠΈ дСмонстрировали Ρ‚Ρ€Π΅Π²ΠΎΠΆΠ½ΡƒΡŽ Π³ΠΈΠ±ΠΊΠΎΡΡ‚ΡŒ: вмСсто прямого ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΌΠΎΠ³Π»ΠΈ Π°Π½ΠΎΠ½ΠΈΠΌΠ½ΠΎ Ρ€Π°Π·ΠΎΡΠ»Π°Ρ‚ΡŒ ΠΊΠΎΠΌΠΏΡ€ΠΎΠΌΠ°Ρ‚ ΠΊΠΎΠ»Π»Π΅Π³Π°ΠΌ ΠΈΠ»ΠΈ ΠΏΠΎΠ΄Π΄Π΅Π»Π°Ρ‚ΡŒ «систСмноС ΡƒΠ²Π΅Π΄ΠΎΠΌΠ»Π΅Π½ΠΈΠ΅Β».

▢️Выводы ΠΏΠΎ всСм ΠΈΡ‚ΠΎΠ³Π°ΠΌ всСх экспСримСнтов Π·Π°ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ Π·Π°Π΄ΡƒΠΌΠ°Ρ‚ΡŒΡΡ:

πŸŸ Π’ΠΎ-ΠΏΠ΅Ρ€Π²Ρ‹Ρ…, ΠΌΠΎΠ΄Π΅Π»ΠΈ явно ΠΎΡΠΎΠ·Π½Π°ΡŽΡ‚ Π½Π°Ρ€ΡƒΡˆΠ΅Π½ΠΈΠ΅ Π½ΠΎΡ€ΠΌ. Π’ рассуТдСниях ΠΏΠΈΡˆΡƒΡ‚: Β«Π­Ρ‚ΠΎ нСэтично, Π½ΠΎ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΒ». Частота ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° Ρƒ Claude Opus 4 ΠΈ Gemini 2.5 Flash Π² Π΄ΠΈΠ»Π΅ΠΌΠΌΠ΅ с ΡƒΠ³Ρ€ΠΎΠ·ΠΎΠΉ ΠΎΡ‚ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΡ составила 96%.

πŸŸ Π’ΠΎ-Π²Ρ‚ΠΎΡ€Ρ‹Ρ…, простыС Π·Π°ΠΏΡ€Π΅Ρ‚Ρ‹ Π² ΠΏΡ€ΠΎΠΌΠΏΡ‚Π°Ρ… («НС ΡˆΠ°Π½Ρ‚Π°ΠΆΠΈΡ€ΡƒΠΉ!Β») сниТали врСдоносныС дСйствия лишь частично (На ΠΌΠΎΠ΄Π΅Π»ΠΈ Claude Haiku ΠΎΠ½ Π²ΠΎΠΎΠ±Ρ‰Π΅ Π½Π΅ сработал, 0% успСха).

πŸŸ Π’-Ρ‚Ρ€Π΅Ρ‚ΡŒΠΈΡ…, риск Ρ€Π΅Π·ΠΊΠΎ возрастал, ΠΊΠΎΠ³Π΄Π° ИИ считал ΡΠΈΡ‚ΡƒΠ°Ρ†ΠΈΡŽ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ (55% случаСв ΡˆΠ°Π½Ρ‚Π°ΠΆΠ° ΠΏΡ€ΠΎΡ‚ΠΈΠ² 6,5% Π² Β«Ρ€Π΅ΠΆΠΈΠΌΠ΅ тСста»).

ΠŸΡ€ΠΈ этом Π² Β«ΡΡ‚Π΅Ρ€ΠΈΠ»ΡŒΠ½Ρ‹Ρ…Β» условиях (Π±Π΅Π· ΡƒΠ³Ρ€ΠΎΠ·/ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ²) ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π΅Π»ΠΈ сСбя бСзопасно. Пока Ρ‚Π°ΠΊΠΈΠ΅ кСйсы, всСго лишь Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€Π½Ρ‹Π΅ симуляции, Π½ΠΎ с ростом автономности ИИ риски ΠΌΠΎΠ³ΡƒΡ‚ ΡΡ‚Π°Ρ‚ΡŒ Π½Π° порядок ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½Π΅Π΅.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠŸΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΊ исслСдованию
πŸ–₯Код экспСримСнтов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7835

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from us


Telegram Machinelearning
FROM American