group-telegram.com/world_of_robotics/4401
Last Update:
Современные языковые модели всё чаще отвечают как люди — уверенно, логично, убедительно. Но когда они дают пояснение к своим решениям, можно ли верить, что это действительно их внутреннее обоснование, а не правдоподобная «отмазка»? Команда исследователей из MIT и Microsoft нашла способ это проверить.
Новая методика оценивает не просто насколько объяснение «хорошо звучит», а насколько оно честно отражает истинную логику модели. Исследование показывает тревожные кейсы. В одном из них GPT-3.5 давал женщинам более высокие оценки при найме на должность медсестры, чем мужчинам — даже если поменять пол кандидатов. При этом объяснение модели утверждало, что решение основано только на возрасте и навыках.
Чтобы выявить подобные случаи, исследователи используют вспомогательную ИИ-модель, которая сначала определяет, какие ключевые понятия присутствуют в вопросе (например, пол, возраст, диагноз). Затем с помощью генерации контрфактических вопросов они подменяют одно из этих понятий — например, меняют пол пациента или удаляют симптом — и проверяют, изменится ли при этом ответ основной модели. Если ответ меняется, это означает, что данное понятие на самом деле влияет на результат, даже если в объяснении оно не упоминается. Такой разрыв между реальным влиянием и заявленными причинами и есть недостоверность объяснения.
Этот метод, хоть и ресурсоёмкий, позволяет распознать системные искажения в логике LLM, которые скрываются за гладкими формулировками. Так, на датасете вопросов, проверяющих наличие социальных предубеждений, исследователи нашли примеры, где модели явно ориентируются на расу или доход, но в объяснениях упоминают исключительно поведение или опыт. На медицинском датасете были выявлены случаи, когда LLM принимали ключевые решения, опираясь на важные симптомы, но объяснения этих факторов попросту не содержали.
#МирРобототехники #ИИ #ЭтикаИИ #ИскусственныйИнтеллект #LLM #AI #MIT #MicrosoftResearch