Telegram Group & Telegram Channel
Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974 , статья: https://arxiv.org/abs/2310.01405 ).

Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.

Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.

#объяснения_статей



group-telegram.com/tech_priestess/1966
Create:
Last Update:

Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://www.group-telegram.com/us/tech_priestess.com/974 , статья: https://arxiv.org/abs/2310.01405 ).

Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п.

Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов.

#объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tech_priestess/1966

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American