Large Parallelism Post: Part IV ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
#parallelism
Админ вернулся из отпуска 🍷 втянулся в работу😮💨 и готов продолжить марафон по параллелизму.
Сегодня разберем один из самых эффективных (и непростых) методов параллелизма очень больших 💪 моделей - ZeRO. Он позволяет эффективно обучать LLM (размером до 1трлн) за счет параллельного хранения и вычисления параметров модели, градиентов и параметров оптимизатора, сохраняя при этом низкий объем коммуникаций и высокую гранулярность вычислений. Мало кто знает, но он состоит из двух частей - ZeRO-DP и ZeRO-R. ZeRO-DP как раз параллелит параметры модели/градиентов/оптимизатора, а ZeRO-R оптимизирует память, сохраняя промежуточные активации/определяя размер буфера/дефрагментируя память.
Думаю о результатах говорить подробно излишне - ZeRO позволил начать тренировать огромные модели в индустрии, а также вдохновил на создание метода FSDP. Подробный разбор, как всегда, читайте в teletype.
Large Parallelism Post: Part IV ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
#parallelism
Админ вернулся из отпуска 🍷 втянулся в работу😮💨 и готов продолжить марафон по параллелизму.
Сегодня разберем один из самых эффективных (и непростых) методов параллелизма очень больших 💪 моделей - ZeRO. Он позволяет эффективно обучать LLM (размером до 1трлн) за счет параллельного хранения и вычисления параметров модели, градиентов и параметров оптимизатора, сохраняя при этом низкий объем коммуникаций и высокую гранулярность вычислений. Мало кто знает, но он состоит из двух частей - ZeRO-DP и ZeRO-R. ZeRO-DP как раз параллелит параметры модели/градиентов/оптимизатора, а ZeRO-R оптимизирует память, сохраняя промежуточные активации/определяя размер буфера/дефрагментируя память.
Думаю о результатах говорить подробно излишне - ZeRO позволил начать тренировать огромные модели в индустрии, а также вдохновил на создание метода FSDP. Подробный разбор, как всегда, читайте в teletype.
The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from sg