Telegram Group & Telegram Channel
Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!
🔥63



group-telegram.com/alisaolega/254
Create:
Last Update:

Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!

BY алиса олеговна


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/alisaolega/254

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from tw


Telegram алиса олеговна
FROM American