Telegram Group & Telegram Channel
3.3. Sparse Transformer, 2019 april, OpenAI
Блогопост: https://openai.com/blog/sparse-transformer/
Статья: https://arxiv.org/abs/1904.10509
Код: https://github.com/openai/sparse_attention

Модификация механизма внимания, позволяющая увеличить длину входа. На self-reported тестах более эффективен чем Transformer-XL

При высчислении обычного внимания сложность вычислений Х^2, где Х -- длина входа, т.к. мы считаем внимание с каждого элемента на каждый. Другими словами, внимание это квадратная симметричная матрица. Оказывается, если долго смотреть на эти матрицы, можно узреть паттерны -- часто возникающие схемы внимания, которые сильно проще чем Х^2 и легко факторизуются. Это позволяет считать внимание не по всем элементам, а по небольшому подмножеству, перейдя от Х^2 почти к О(Х). Авторы предлагают две простые факторизации внимания -- strided и fixed. Как следствие это позволяет сильно увеличить размер окна -- обрабатывать Трансформером сырой звук и картинки, что раньше не делали именно из-за того, что в него сложно впихнуть что-то длинное. На текстах они сделали какой-то один SOTA замер, надо последить, что дальше будет.
Поясняющую картинку см выше.

На этом у меня пока всё.
Если что-то важное забыл, пишите в личку, @altsoph.



group-telegram.com/gonzo_ML/65
Create:
Last Update:

3.3. Sparse Transformer, 2019 april, OpenAI
Блогопост: https://openai.com/blog/sparse-transformer/
Статья: https://arxiv.org/abs/1904.10509
Код: https://github.com/openai/sparse_attention

Модификация механизма внимания, позволяющая увеличить длину входа. На self-reported тестах более эффективен чем Transformer-XL

При высчислении обычного внимания сложность вычислений Х^2, где Х -- длина входа, т.к. мы считаем внимание с каждого элемента на каждый. Другими словами, внимание это квадратная симметричная матрица. Оказывается, если долго смотреть на эти матрицы, можно узреть паттерны -- часто возникающие схемы внимания, которые сильно проще чем Х^2 и легко факторизуются. Это позволяет считать внимание не по всем элементам, а по небольшому подмножеству, перейдя от Х^2 почти к О(Х). Авторы предлагают две простые факторизации внимания -- strided и fixed. Как следствие это позволяет сильно увеличить размер окна -- обрабатывать Трансформером сырой звук и картинки, что раньше не делали именно из-за того, что в него сложно впихнуть что-то длинное. На текстах они сделали какой-то один SOTA замер, надо последить, что дальше будет.
Поясняющую картинку см выше.

На этом у меня пока всё.
Если что-то важное забыл, пишите в личку, @altsoph.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/65

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram.
from us


Telegram gonzo-обзоры ML статей
FROM American