Telegram Group & Telegram Channel
Language models can explain neurons in language models 🤔

Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

В чем идея:
1. Берем исследуюемую модель и какой-то фиксированный датасет. Собираем инфу о том, какие нейроны как сильно активируются на каждом токене. Далее по этой информации просим GPT-4 для каждого нейрона предположить, за что он отвечает
2. Далее симулирем поведение этого нейрона, исходя из его предполагаемого назначения. Передаем в ту же GPT-4 описание, что этот нейрон якобы делает, кусок текста, и просим предсказать, какой силы активация должна у этого нейрона быть на последнем токене последовательности
3. Прогоняем этот текст через исследуемую модель и смотрим, какие активации у каких нейронов реально получились. Считаем скор, насколько предположение GPT-4 оказалось точным

Авторы исследовали GPT-2 XL и в целом для большей части нейронов ни GPT-4, ни человеческим разметчикам не удалось точно предполжить, что они делают. Но нашлись 1000+ нейронов, для которых удалось предсказать объяснение с точностью 0.8+. Еще авторы находят, что часто нейроны полисемантичны, и гораздо большую точность можно получить, если брать линейные комбинации от наиболее «ярких» нейронов

Как я уже написала, самая крутая чать работы – интерактивная
- Есть сниппет текста, где для каждого слова можно посмотреть, какие нейроны на него реагируют, какое им дано объяснение и к какому семантическому кластеру они относятся
– И есть neuron viewer, где для каждого нейрона GPT-2 можно посмотреть его объяснение и все токены в датасете, на которые он реагирует. Можно предложить и свое объяснение его поведения, так что мб так и накраудсорсится 🥳

Там же перечислен набор нейронов, которые кажется были хорошо объяснены. Например, авторы нашли отдельный нейрон для Канады, нейрон для улыбок и даже абстрактные нейроны про «doing things right» и «certainty»
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/def_model_train/942
Create:
Last Update:

Language models can explain neurons in language models 🤔

Очень крутая и очень интерактивная статья про explainable ai. Советую всем открыть и потыкать:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

В чем идея:
1. Берем исследуюемую модель и какой-то фиксированный датасет. Собираем инфу о том, какие нейроны как сильно активируются на каждом токене. Далее по этой информации просим GPT-4 для каждого нейрона предположить, за что он отвечает
2. Далее симулирем поведение этого нейрона, исходя из его предполагаемого назначения. Передаем в ту же GPT-4 описание, что этот нейрон якобы делает, кусок текста, и просим предсказать, какой силы активация должна у этого нейрона быть на последнем токене последовательности
3. Прогоняем этот текст через исследуемую модель и смотрим, какие активации у каких нейронов реально получились. Считаем скор, насколько предположение GPT-4 оказалось точным

Авторы исследовали GPT-2 XL и в целом для большей части нейронов ни GPT-4, ни человеческим разметчикам не удалось точно предполжить, что они делают. Но нашлись 1000+ нейронов, для которых удалось предсказать объяснение с точностью 0.8+. Еще авторы находят, что часто нейроны полисемантичны, и гораздо большую точность можно получить, если брать линейные комбинации от наиболее «ярких» нейронов

Как я уже написала, самая крутая чать работы – интерактивная
- Есть сниппет текста, где для каждого слова можно посмотреть, какие нейроны на него реагируют, какое им дано объяснение и к какому семантическому кластеру они относятся
– И есть neuron viewer, где для каждого нейрона GPT-2 можно посмотреть его объяснение и все токены в датасете, на которые он реагирует. Можно предложить и свое объяснение его поведения, так что мб так и накраудсорсится 🥳

Там же перечислен набор нейронов, которые кажется были хорошо объяснены. Например, авторы нашли отдельный нейрон для Канады, нейрон для улыбок и даже абстрактные нейроны про «doing things right» и «certainty»

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/942

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. He adds: "Telegram has become my primary news source."
from ca


Telegram я обучала одну модель
FROM American