Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/DataSciencegx/178
Create:
Last Update:

5 техник дообучения LLM

Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.

Вот 5 оптимальных способов дообучения LLM:

1) LoRA — вместо того чтобы дообучать всю матрицу весов W, рядом добавляются две обучаемые low-rank матрицы A и B. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).

2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A не обучается, двигаем только B. Получается ещё легче по памяти.

3) VeRA — держит свои A и B для каждого слоя. VeRA идёт дальше — A и B фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b, d) по слоям. Минимализм.

4) Delta-LoRA — Идея: не просто обучать A и B, а следить за разницей (delta) между их произведениями на соседних итерациях. Эта дельта прибавляется к W. Такой "косвенный" fine-tuning базовых весов.

5) LoRA+ — В оригинальной LoRA A и B обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B — и получили стабильнее и быстрее сходимость. Просто, но работает.

👉 @DataSciencegx

BY Data Portal | Data Science & Машиннное обучение


Share with your friend now:
group-telegram.com/DataSciencegx/178

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Telegram Messenger Blocks Navalny Bot During Russian Election Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care.
from nl


Telegram Data Portal | Data Science & Машиннное обучение
FROM American