Telegram Group & Telegram Channel
У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/207
Create:
Last Update:

У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/207

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." READ MORE
from hk


Telegram epsilon correct
FROM American