Telegram Group & Telegram Channel
🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/world_of_robotics/4401
Create:
Last Update:

🧠 Как понять, врёт ли ИИ?

Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.

Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.

Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.

Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.

🤖 «МИР Робототехники»

#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch

BY Мир Робототехники




Share with your friend now:
group-telegram.com/world_of_robotics/4401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Some privacy experts say Telegram is not secure enough Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events."
from ye


Telegram Мир Робототехники
FROM American