Telegram Group & Telegram Channel
Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его.

В нашей задаче, где мы хотим проверить работу модели с локациями, назовём «чистым» промптом наш промпт с Колизеем и Римом, а «поврежденным» (corrupted) - промпт с Лувром в Париже.

⭐️Denoising - когда мы подмешиваем активации с чистого промпта к поврежденному. Так как мы запускаем на втором промпте, то модель сначала выдает Париж. При увеличении количества замененных активаций, в какой-то момент модель станет выдавать Рим вместо Парижа. Таким образом, мы найдем части модели, который достаточны для связи локации в вопросе с Римом и соотвественно выдачи именно Рима в ответе.

⭐️Noising - когда, наоборот, мы подмешиваем активации с поврежденного промпта к чистому. Тут изначально модель выдает Рим (так как мы запускаем на чистом промпте), но в какой-то момент она перестанет это делать, и таким образом, noising позволяет найти путь в модели, необходимый для определения локации с Римом, так как при его изменении «ломается» поведение модели

В статье еще можно прочитать про различные любопытные моменты связанные с настройкой интерпретацией всего того, что мы получаем в результате activation patching😈

Оригинальная статья: How to use and interpret activation patching
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/nlp_with_heart/22
Create:
Last Update:

Существует два подхода в таком смешивании (его еще называют activation patching) - Noising и Denoising. Что у них общего - после запуска модели на одном промпте, мы сохраняем активации модели (либо же какую-то другую информацию, например полносвязные слои), а при запуске на втором промпте, заменяем истинные активации на те, что мы сохранили. Наша цель, найти путь внутри модели который либо ломает поведение модели на некоторой задаче, либо наоборот, сохраняет его.

В нашей задаче, где мы хотим проверить работу модели с локациями, назовём «чистым» промптом наш промпт с Колизеем и Римом, а «поврежденным» (corrupted) - промпт с Лувром в Париже.

⭐️Denoising - когда мы подмешиваем активации с чистого промпта к поврежденному. Так как мы запускаем на втором промпте, то модель сначала выдает Париж. При увеличении количества замененных активаций, в какой-то момент модель станет выдавать Рим вместо Парижа. Таким образом, мы найдем части модели, который достаточны для связи локации в вопросе с Римом и соотвественно выдачи именно Рима в ответе.

⭐️Noising - когда, наоборот, мы подмешиваем активации с поврежденного промпта к чистому. Тут изначально модель выдает Рим (так как мы запускаем на чистом промпте), но в какой-то момент она перестанет это делать, и таким образом, noising позволяет найти путь в модели, необходимый для определения локации с Римом, так как при его изменении «ломается» поведение модели

В статье еще можно прочитать про различные любопытные моменты связанные с настройкой интерпретацией всего того, что мы получаем в результате activation patching😈

Оригинальная статья: How to use and interpret activation patching

BY abstracts with a human heart




Share with your friend now:
group-telegram.com/nlp_with_heart/22

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from us


Telegram abstracts with a human heart
FROM American