Telegram Group & Telegram Channel
Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!
🔥63



group-telegram.com/alisaolega/254
Create:
Last Update:

Для тех, кто пропустил, подогнали запись. Я послушал очно и, честно говоря, превзошло ожидания. Во-первых было много аспектов по вычислительным особенностям трансформеров, о которых раньше не задумывался. Во-вторых — сама работа весьма радикальная и потому многообещающая.

TL/DR в буквальном смысле из трансформера выкинуто большинство нелинейностей и даже SoftMax! В таком сетапе была обучена пачка BERT и сравнена с оригинальным гугловским чекпоинтом. В таком режиме BERT был побит, при этом модель на DenseAttention перформит очень-очень быстро, т. к. сняты боттлнеки вычислительно дорогих нелинейных операций, которые практически не параллелятся на CUDA-ядрах. В работе Андрея пока действительно видится новизна в том, что это не аппроксимация народного Attention, а по-честному матмулы всех токенов со всеми, просто за вычетом дорогих операций. Из ещё интересного, моделька может работать в двух режимах O(NxN) и O(N), причём вывод будет абсолютно идентичный из-за ассоциативности матричных умножений.

Интересно это тем, что мы можем выбирать режим в зависимости от длины последовательности, чтобы лучше насыщать FLOPs на конкретном вычислителе. Банально, при небольших длинах последовательностей с квадратичной асимптотикой GPU может выдать больше FLOPs, и наоборот, после какой-то длины выгодно переходить на режим O(N).

Много интересной математики, немного вспомнить линал и посмотреть на упрощённый аналитический вывод трансформера — всё здесь. В общем, постараюсь осознать произошедшее и сделать полноценный обзор. Пока, статья куцая и не хватает, конечно же, очень подробных abilation studies, но то, что есть — это круто!

Действительно приятно впечатлила работа, рекомендую глянуть!

BY алиса олеговна


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/alisaolega/254

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from ms


Telegram алиса олеговна
FROM American