Telegram Group & Telegram Channel
🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/world_of_robotics/4401
Create:
Last Update:

🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch

BY Мир Робототехники




Share with your friend now:
group-telegram.com/world_of_robotics/4401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from hk


Telegram Мир Робототехники
FROM American