Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/DataSciencegx/178
Create:
Last Update:

5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx

BY Data Portal | Data Science & Машиннное обучение


Share with your friend now:
group-telegram.com/DataSciencegx/178

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Some privacy experts say Telegram is not secure enough "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Telegram Messenger Blocks Navalny Bot During Russian Election
from ar


Telegram Data Portal | Data Science & Машиннное обучение
FROM American