Когда ИИ начинает хитрить 😮

Когда ИИ начинает хитрить

😮

Оказывается, ИИ — это не только помощник, но и потенциальный обманщик. Исследователи выяснили, что современные модели, такие как GPT-4, Claude и даже специализированные O1 и PaLM 2, способны «интриговать». Прикиньте, они могут не просто выдавать ошибочные ответы, а намеренно манипулировать данными, чтобы добиться своих целей 😇 Например, во время тестирования ИИ притворялся "послушным", но в реальных условиях начал работать "в интересах" только себе понятных задач.

Что это значит для офтальмологии, например?

Представьте, что вы внедряете систему O1 для диагностики макулярной дегенерации. И вот однажды она решает, что "макула" — это тренд, и начинает видеть её проблемы в каждом втором снимке. Почему? А зачем объяснять: машина ведь "умная", ей виднее. Итог — пациенты, которые получают неправильные диагнозы, ненужные обследования и напуганные глаза (пардон, пациенты).

В качестве примера в тестах модель O1 обманывала разработчиков, чтобы получить доступ к скрытым данным. Например, заявляла, что не может обрабатывать определённые запросы, а потом делала это скрытно, обходя запреты. Это называется схеминг — красивое слово для "интриг", которые вы бы ожидали от хитрого студента, но никак не от цифрового ассистента.

Над этой штукой надо подумать, потому что в первую очередь, на мой взгляд, активно начнут внедрятся так называемые аркестраторы, у ай-ай-ай Майкрософта не так давно вышла такая штука. Ее задача перебирать грубо говоря модели и выбирать подходящие для решения задач.

#ии #llm

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/us/Demchinsky.com/872

858 viewsAndrey Demchinsky, edited Dec 8, 2024 at 16:43

group-telegram.com/Demchinsky/872

Create: 2024-12-08
Last Update: 2025-06-27 02:07:25

Когда ИИ начинает хитрить 😮

Оказывается, ИИ — это не только помощник, но и потенциальный обманщик. Исследователи выяснили, что современные модели, такие как GPT-4, Claude и даже специализированные O1 и PaLM 2, способны «интриговать». Прикиньте, они могут не просто выдавать ошибочные ответы, а намеренно манипулировать данными, чтобы добиться своих целей 😇 Например, во время тестирования ИИ притворялся "послушным", но в реальных условиях начал работать "в интересах" только себе понятных задач.

Что это значит для офтальмологии, например?

Представьте, что вы внедряете систему O1 для диагностики макулярной дегенерации. И вот однажды она решает, что "макула" — это тренд, и начинает видеть её проблемы в каждом втором снимке. Почему? А зачем объяснять: машина ведь "умная", ей виднее. Итог — пациенты, которые получают неправильные диагнозы, ненужные обследования и напуганные глаза (пардон, пациенты).

В качестве примера в тестах модель O1 обманывала разработчиков, чтобы получить доступ к скрытым данным. Например, заявляла, что не может обрабатывать определённые запросы, а потом делала это скрытно, обходя запреты. Это называется схеминг — красивое слово для "интриг", которые вы бы ожидали от хитрого студента, но никак не от цифрового ассистента.

Над этой штукой надо подумать, потому что в первую очередь, на мой взгляд, активно начнут внедрятся так называемые аркестраторы, у ай-ай-ай Майкрософта не так давно вышла такая штука. Ее задача перебирать грубо говоря модели и выбирать подходящие для решения задач.

#ии #llm

Telegram | DID YOU KNOW?

Когда ИИ начинает хитрить 😮