Telegram Group & Telegram Channel
🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/world_of_robotics/4401
Create:
Last Update:

🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch

BY Мир Робототехники




Share with your friend now:
group-telegram.com/world_of_robotics/4401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform.
from in


Telegram Мир Робототехники
FROM American