Notice: file_put_contents(): Write of 1926 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 18310 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Sinекура | Telegram Webview: sinecor/680 -
Telegram Group & Telegram Channel
На семинаре лаборатории Маркова продолжаем (но — ура! — точно не заканчиваем) серию докладов про state-space models и Mamba. Второй доклад будет конкретно про Mamba, с техническими деталями и во всех подробностях; думаю, это будет полезно даже безотносительно архитектуры как таковой.

Кстати, в deep learning частенько бывает так, что интересная математически сложная идея после пристального взгляда на архитектуру в реальности превращается в небольшой дополнительный трюк, до которого авторы скорее всего безо всякой математики дошли, а потом уже объяснили концептуально. Относится ли Mamba к этой категории? Узнаем об этом в среду.

Погружение в детали реализации Mamba
Ссылка на трансляцию (среда 22 октября, 14:00)

Владислав Ушаков (Яндекс)
Максим Романов (Лаборатория Маркова, МКН СПбГУ
)

Мы продолжаем детальный разбор SSM-based моделей. В начале семинара разберём архитектуру Mamba — что такое «селективность», как устроено обновление состояния, затем пройдёмся по минимальным имплементациям S4 и Mamba. А потом погрузимся в детали эффективной реализации по следующему плану.

1. Краткое введение в GPU-вычисления: архитектура GPU, модель массового параллелизма.

2. Постановка задачи префиксной суммы (Scan) и эволюция алгоритмов её решения на GPU: от Sequential Scan до Work-Efficient Parallel Scan.

3. Разберём, где и как Parallel Scan применяется в Mamba, а также какие ещё GPU-оптимизации используются при обучении.

#markovlab #seminar #spsu
🔥183👍3



group-telegram.com/sinecor/680
Create:
Last Update:

На семинаре лаборатории Маркова продолжаем (но — ура! — точно не заканчиваем) серию докладов про state-space models и Mamba. Второй доклад будет конкретно про Mamba, с техническими деталями и во всех подробностях; думаю, это будет полезно даже безотносительно архитектуры как таковой.

Кстати, в deep learning частенько бывает так, что интересная математически сложная идея после пристального взгляда на архитектуру в реальности превращается в небольшой дополнительный трюк, до которого авторы скорее всего безо всякой математики дошли, а потом уже объяснили концептуально. Относится ли Mamba к этой категории? Узнаем об этом в среду.

Погружение в детали реализации Mamba
Ссылка на трансляцию (среда 22 октября, 14:00)

Владислав Ушаков (Яндекс)
Максим Романов (Лаборатория Маркова, МКН СПбГУ
)

Мы продолжаем детальный разбор SSM-based моделей. В начале семинара разберём архитектуру Mamba — что такое «селективность», как устроено обновление состояния, затем пройдёмся по минимальным имплементациям S4 и Mamba. А потом погрузимся в детали эффективной реализации по следующему плану.

1. Краткое введение в GPU-вычисления: архитектура GPU, модель массового параллелизма.

2. Постановка задачи префиксной суммы (Scan) и эволюция алгоритмов её решения на GPU: от Sequential Scan до Work-Efficient Parallel Scan.

3. Разберём, где и как Parallel Scan применяется в Mamba, а также какие ещё GPU-оптимизации используются при обучении.

#markovlab #seminar #spsu

BY Sinекура




Share with your friend now:
group-telegram.com/sinecor/680

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. READ MORE
from ca


Telegram Sinекура
FROM American