Telegram Group & Telegram Channel
Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ

Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.

Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.

Ключевые особенности:
- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель


На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.

Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.

Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens

Сергей Булаев AI 🤖 - об AI и не только



group-telegram.com/sergiobulaev/1208
Create:
Last Update:

Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ

Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.

Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.

Ключевые особенности:
- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель


На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.

Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.

Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens

Сергей Булаев AI 🤖 - об AI и не только

BY Сергей Булаев AI 🤖




Share with your friend now:
group-telegram.com/sergiobulaev/1208

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from us


Telegram Сергей Булаев AI 🤖
FROM American