Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974

Техножрица 👩‍💻👩‍🏫👩‍🔧

Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974 , статья: https://arxiv.org/abs/2310.01405 ).

Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.

Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.

#объяснения_статей

Техножрица 👩‍💻👩‍🏫👩‍🔧

Интересный рассказ с картинками про то, как приноровились менять поведение предтренированной модели, воздействуя непосредственно на её эмбеддинги:

https://www.group-telegram.com/seeallochnaya/682
https://www.group-telegram.com/seeallochnaya/685
https://www.group-telegram.com/seeallochnaya/687
(Три последовательных…

www.group-telegram.com/us/tech_priestess.com/1966

6.0K viewsedited Jan 10 at 18:30

group-telegram.com/tech_priestess/1966

Create: 2025-01-10
Last Update: 2025-05-30 08:31:45

BY Техножрица 👩‍💻👩‍🏫👩‍🔧

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tech_priestess/1966

Telegram | DID YOU KNOW?

Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974