Telegram Group & Telegram Channel
Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!
🔥63



group-telegram.com/alisaolega/254
Create:
Last Update:

Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!

BY алиса олеговна


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/alisaolega/254

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety.
from in


Telegram алиса олеговна
FROM American