Telegram Group & Telegram Channel
Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kitty_bytes/28
Create:
Last Update:

Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)

BY Kitty Bytes AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kitty_bytes/28

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from us


Telegram Kitty Bytes AI
FROM American