Telegram Group & Telegram Channel
When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

Довольно изящный механизм комбинирования ранее известных видов оптимизации скорости вычислений трансформера, которые были известны ранее

Сейчас я говорю о:

🩰Speculative Sampling (link): идея в распаралелливании авторегрессионой задачи через использовании одной легковестной модели (черновой) и более крупной и "умной" (целевой). В то время, как малютка черновая генерирует некоторое количество токенок, целевая проходится параллельно по выборке и оценивает качество, проверяя, насколько эти токены соответствуют её распределению

🩰Linear Attentions, LAs (link): в attention есть дорогостоящая операция измерения сходства каждого токена с каждым через softmax. Мы можем заменить функцию на более дешевую операцию через ядерное встраивание.

По сути меняем softmax(Q*K^T) на f(Q) * f(K), преобразованные через ядерную функцию, которая “проецирует” их в новое пространство. Таким образом, схожесть между запросами и ключами вычисляется не в исходном пространстве, а в этом новом пространстве признаков. (я хз как в тг это написать красивее, прошу понять и простить)

🩰Grouped Linear Attention: когда мы разделяем входную последовательность на независимые группы токенов. В пределах каждой группы локальные зависимости могут обрабатываться параллельно, что значительно ускоряет вычисления. Уже нечто схожее упоминалось в стаье Grouped-Query Attention (GQA). Идея разбиения информации для эффективной обработки длинных последовательностей также модифицировано прослеживает в Linformer (link), Longformer (link) и LongNet (tg link)

🏃‍♂️В общем то в первой части исходной статьи авторы замеряют на работает LAs на разных архитектурах (encoder-only, decoder-only, encoder-decoder). Сюрприх-сюрприз: приходят к выводам, что:

💛Linear Attention значительно ускоряет обучение, но показывает себя не настолько эффективно на инференсе авторегрессионной задачи
💛Линейное внимание приводит к уменьшению latency до 56% и снижению потребления памяти до 37%
💛Линейное внимание плохо учитывает последовательные временные зависимости токенов. Это приводит к “утечке информации” (information leakage), когда модель может случайно получить доступ к будущим токенам

👍Эти выводы они использует, как аргумент к комбинации многих из выше описанных подходов и добавления своих механизмов для борьбы с information leakage:

🩰Augmentation: Предлагают маскированную глубинную свёртку (masked DWConv) как способ улучшить линейное внимание, обеспечив, чтобы каждый токен мог учитывать только предыдущие токены, сохраняя причинно-следственные связи
🩰Используют Grouped Linear Attention. Для каждой группы вычисляются суммы произведений ключей и значений (KV cumsum), что позволяет минимизировать вычислительные зависимости между группами и повысить эффективность
🩰Как все уже могли догадаться, используют Speculative Sampling, чтобы повысить эффективность Linear Attention при инференсе
🩰 Unfolded: В Speculative Sampling, для корректной работы с несколькими кандидатами токенов одновременно, они предлагают “разворачивать” свёртки по времени с помощью техники, похожей на img2col, используемую в cv. Это позволяет свёрткам корректно учитывать временные зависимости

📖Статья
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍73



group-telegram.com/nadlskom/472
Create:
Last Update:

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

Довольно изящный механизм комбинирования ранее известных видов оптимизации скорости вычислений трансформера, которые были известны ранее

Сейчас я говорю о:

🩰Speculative Sampling (link): идея в распаралелливании авторегрессионой задачи через использовании одной легковестной модели (черновой) и более крупной и "умной" (целевой). В то время, как малютка черновая генерирует некоторое количество токенок, целевая проходится параллельно по выборке и оценивает качество, проверяя, насколько эти токены соответствуют её распределению

🩰Linear Attentions, LAs (link): в attention есть дорогостоящая операция измерения сходства каждого токена с каждым через softmax. Мы можем заменить функцию на более дешевую операцию через ядерное встраивание.

По сути меняем softmax(Q*K^T) на f(Q) * f(K), преобразованные через ядерную функцию, которая “проецирует” их в новое пространство. Таким образом, схожесть между запросами и ключами вычисляется не в исходном пространстве, а в этом новом пространстве признаков. (я хз как в тг это написать красивее, прошу понять и простить)

🩰Grouped Linear Attention: когда мы разделяем входную последовательность на независимые группы токенов. В пределах каждой группы локальные зависимости могут обрабатываться параллельно, что значительно ускоряет вычисления. Уже нечто схожее упоминалось в стаье Grouped-Query Attention (GQA). Идея разбиения информации для эффективной обработки длинных последовательностей также модифицировано прослеживает в Linformer (link), Longformer (link) и LongNet (tg link)

🏃‍♂️В общем то в первой части исходной статьи авторы замеряют на работает LAs на разных архитектурах (encoder-only, decoder-only, encoder-decoder). Сюрприх-сюрприз: приходят к выводам, что:

💛Linear Attention значительно ускоряет обучение, но показывает себя не настолько эффективно на инференсе авторегрессионной задачи
💛Линейное внимание приводит к уменьшению latency до 56% и снижению потребления памяти до 37%
💛Линейное внимание плохо учитывает последовательные временные зависимости токенов. Это приводит к “утечке информации” (information leakage), когда модель может случайно получить доступ к будущим токенам

👍Эти выводы они использует, как аргумент к комбинации многих из выше описанных подходов и добавления своих механизмов для борьбы с information leakage:

🩰Augmentation: Предлагают маскированную глубинную свёртку (masked DWConv) как способ улучшить линейное внимание, обеспечив, чтобы каждый токен мог учитывать только предыдущие токены, сохраняя причинно-следственные связи
🩰Используют Grouped Linear Attention. Для каждой группы вычисляются суммы произведений ключей и значений (KV cumsum), что позволяет минимизировать вычислительные зависимости между группами и повысить эффективность
🩰Как все уже могли догадаться, используют Speculative Sampling, чтобы повысить эффективность Linear Attention при инференсе
🩰 Unfolded: В Speculative Sampling, для корректной работы с несколькими кандидатами токенов одновременно, они предлагают “разворачивать” свёртки по времени с помощью техники, похожей на img2col, используемую в cv. Это позволяет свёрткам корректно учитывать временные зависимости

📖Статья
🖥Код

BY что-то на DL-ском







Share with your friend now:
group-telegram.com/nadlskom/472

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation."
from ru


Telegram что-то на DL-ском
FROM American