Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
#transformer #optimization #memory #context
Пока во всех каналах идет шумиха о новой модели, я подготовил еще один разбор статьи. На этот раз погрузился в тему бесконечного контекста и линейной алгебры.
Очередной трансформер - авторы выделяют дополнительную память для итерационного сохранения векторов K и V по всем токенам текста в структуре Linear Attention, который работает параллельно оригинальному Multi-Head Attention (на выходе считают их взвешенную сумму с обучаемым параметром). Это позволяет не увеличивать сложность расчетов (которая и так O(N^2) в оригинальном Attention), а также запоминать сколь угодно много контекста. По результатам Infini-Transformer довольно хорошо справляется с задачей суммаризации (по бенчмаркам лучше, чем BART) и, очевидно👍, эфективнее работает с длинным контекстом.
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
#transformer #optimization #memory #context
Пока во всех каналах идет шумиха о новой модели, я подготовил еще один разбор статьи. На этот раз погрузился в тему бесконечного контекста и линейной алгебры.
Очередной трансформер - авторы выделяют дополнительную память для итерационного сохранения векторов K и V по всем токенам текста в структуре Linear Attention, который работает параллельно оригинальному Multi-Head Attention (на выходе считают их взвешенную сумму с обучаемым параметром). Это позволяет не увеличивать сложность расчетов (которая и так O(N^2) в оригинальном Attention), а также запоминать сколь угодно много контекста. По результатам Infini-Transformer довольно хорошо справляется с задачей суммаризации (по бенчмаркам лучше, чем BART) и, очевидно👍, эфективнее работает с длинным контекстом.
Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events."
from id