Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/DataSciencegx/178
Create:
Last Update:

5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx

BY Data Portal | Data Science & Машиннное обучение


Share with your friend now:
group-telegram.com/DataSciencegx/178

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation.
from in


Telegram Data Portal | Data Science & Машиннное обучение
FROM American