На семинаре лаборатории Маркова продолжаем (но — ура! — точно не заканчиваем) серию докладов про state-space models и Mamba. Второй доклад будет конкретно про Mamba, с техническими деталями и во всех подробностях; думаю, это будет полезно даже безотносительно архитектуры как таковой.
Кстати, в deep learning частенько бывает так, что интересная математически сложная идея после пристального взгляда на архитектуру в реальности превращается в небольшой дополнительный трюк, до которого авторы скорее всего безо всякой математики дошли, а потом уже объяснили концептуально. Относится ли Mamba к этой категории? Узнаем об этом в среду.
Мы продолжаем детальный разбор SSM-based моделей. В начале семинара разберём архитектуру Mamba — что такое «селективность», как устроено обновление состояния, затем пройдёмся по минимальным имплементациям S4 и Mamba. А потом погрузимся в детали эффективной реализации по следующему плану.
1. Краткое введение в GPU-вычисления: архитектура GPU, модель массового параллелизма.
2. Постановка задачи префиксной суммы (Scan) и эволюция алгоритмов её решения на GPU: от Sequential Scan до Work-Efficient Parallel Scan.
3. Разберём, где и как Parallel Scan применяется в Mamba, а также какие ещё GPU-оптимизации используются при обучении.
На семинаре лаборатории Маркова продолжаем (но — ура! — точно не заканчиваем) серию докладов про state-space models и Mamba. Второй доклад будет конкретно про Mamba, с техническими деталями и во всех подробностях; думаю, это будет полезно даже безотносительно архитектуры как таковой.
Кстати, в deep learning частенько бывает так, что интересная математически сложная идея после пристального взгляда на архитектуру в реальности превращается в небольшой дополнительный трюк, до которого авторы скорее всего безо всякой математики дошли, а потом уже объяснили концептуально. Относится ли Mamba к этой категории? Узнаем об этом в среду.
Мы продолжаем детальный разбор SSM-based моделей. В начале семинара разберём архитектуру Mamba — что такое «селективность», как устроено обновление состояния, затем пройдёмся по минимальным имплементациям S4 и Mamba. А потом погрузимся в детали эффективной реализации по следующему плану.
1. Краткое введение в GPU-вычисления: архитектура GPU, модель массового параллелизма.
2. Постановка задачи префиксной суммы (Scan) и эволюция алгоритмов её решения на GPU: от Sequential Scan до Work-Efficient Parallel Scan.
3. Разберём, где и как Parallel Scan применяется в Mamba, а также какие ещё GPU-оптимизации используются при обучении.
Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered.
from jp