group-telegram.com/tech_priestess/1966
Last Update:
Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974 , статья: https://arxiv.org/abs/2310.01405 ).
Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.
Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.
#объяснения_статей
BY Техножрица 👩💻👩🏫👩🔧
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/tech_priestess/1966