Telegram Group & Telegram Channel
Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kitty_bytes/28
Create:
Last Update:

Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)

BY Kitty Bytes AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kitty_bytes/28

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety.
from kr


Telegram Kitty Bytes AI
FROM American