group-telegram.com/sinecor/680
Last Update:
На семинаре лаборатории Маркова продолжаем (но — ура! — точно не заканчиваем) серию докладов про state-space models и Mamba. Второй доклад будет конкретно про Mamba, с техническими деталями и во всех подробностях; думаю, это будет полезно даже безотносительно архитектуры как таковой.
Кстати, в deep learning частенько бывает так, что интересная математически сложная идея после пристального взгляда на архитектуру в реальности превращается в небольшой дополнительный трюк, до которого авторы скорее всего безо всякой математики дошли, а потом уже объяснили концептуально. Относится ли Mamba к этой категории? Узнаем об этом в среду.
Погружение в детали реализации Mamba
Ссылка на трансляцию (среда 22 октября, 14:00)
Владислав Ушаков (Яндекс)
Максим Романов (Лаборатория Маркова, МКН СПбГУ)
Мы продолжаем детальный разбор SSM-based моделей. В начале семинара разберём архитектуру Mamba — что такое «селективность», как устроено обновление состояния, затем пройдёмся по минимальным имплементациям S4 и Mamba. А потом погрузимся в детали эффективной реализации по следующему плану.
1. Краткое введение в GPU-вычисления: архитектура GPU, модель массового параллелизма.
2. Постановка задачи префиксной суммы (Scan) и эволюция алгоритмов её решения на GPU: от Sequential Scan до Work-Efficient Parallel Scan.
3. Разберём, где и как Parallel Scan применяется в Mamba, а также какие ещё GPU-оптимизации используются при обучении.
#markovlab #seminar #spsu
BY Sinекура

Share with your friend now:
group-telegram.com/sinecor/680
