Telegram Group & Telegram Channel
🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/world_of_robotics/4401
Create:
Last Update:

🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch

BY Мир Робототехники




Share with your friend now:
group-telegram.com/world_of_robotics/4401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. I want a secure messaging app, should I use Telegram?
from us


Telegram Мир Робототехники
FROM American