Telegram Group & Telegram Channel
Large Parallelism Post: Part IV
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

#parallelism

Админ вернулся из отпуска 🍷 втянулся в работу😮‍💨 и готов продолжить марафон по параллелизму.

Сегодня разберем один из самых эффективных (и непростых) методов параллелизма очень больших 💪 моделей - ZeRO. Он позволяет эффективно обучать LLM (размером до 1трлн) за счет параллельного хранения и вычисления параметров модели, градиентов и параметров оптимизатора, сохраняя при этом низкий объем коммуникаций и высокую гранулярность вычислений. Мало кто знает, но он состоит из двух частей - ZeRO-DP и ZeRO-R. ZeRO-DP как раз параллелит параметры модели/градиентов/оптимизатора, а ZeRO-R оптимизирует память, сохраняя промежуточные активации/определяя размер буфера/дефрагментируя память.

Думаю о результатах говорить подробно излишне - ZeRO позволил начать тренировать огромные модели в индустрии, а также вдохновил на создание метода FSDP. Подробный разбор, как всегда, читайте в teletype.

Читать больше в Teletype 🔄

Arxive 📖
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kitty_bytes/18
Create:
Last Update:

Large Parallelism Post: Part IV
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

#parallelism

Админ вернулся из отпуска 🍷 втянулся в работу😮‍💨 и готов продолжить марафон по параллелизму.

Сегодня разберем один из самых эффективных (и непростых) методов параллелизма очень больших 💪 моделей - ZeRO. Он позволяет эффективно обучать LLM (размером до 1трлн) за счет параллельного хранения и вычисления параметров модели, градиентов и параметров оптимизатора, сохраняя при этом низкий объем коммуникаций и высокую гранулярность вычислений. Мало кто знает, но он состоит из двух частей - ZeRO-DP и ZeRO-R. ZeRO-DP как раз параллелит параметры модели/градиентов/оптимизатора, а ZeRO-R оптимизирует память, сохраняя промежуточные активации/определяя размер буфера/дефрагментируя память.

Думаю о результатах говорить подробно излишне - ZeRO позволил начать тренировать огромные модели в индустрии, а также вдохновил на создание метода FSDP. Подробный разбор, как всегда, читайте в teletype.

Читать больше в Teletype 🔄

Arxive 📖

BY Kitty Bytes AI




Share with your friend now:
group-telegram.com/kitty_bytes/18

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from sg


Telegram Kitty Bytes AI
FROM American