group-telegram.com/DataSciencegx/178
Last Update:
5 техник дообучения LLM
Традиционное дообучение невозможно для LLM, поскольку они содержат миллиарды параметров и весят сотни гигабайт. Не у всех есть доступ к такой вычислительной инфраструктуре.
Вот 5 оптимальных способов дообучения LLM:
1) LoRA — вместо того чтобы дообучать всю матрицу весов W
, рядом добавляются две обучаемые low-rank матрицы A
и B
. Все изменения идут через них. Памяти — на порядок меньше (буквально мегабайты).
2) LoRA-FA — Да, LoRA экономит параметры, но прожорлива к активациям. FA = Frozen A — матрица A
не обучается, двигаем только B
. Получается ещё легче по памяти.
3) VeRA — держит свои A
и B
для каждого слоя. VeRA идёт дальше — A
и B
фиксируются случайно и шарятся между слоями. Вместо матриц обучаются векторные скейлы (b
, d
) по слоям. Минимализм.
4) Delta-LoRA — Идея: не просто обучать A
и B
, а следить за разницей (delta
) между их произведениями на соседних итерациях. Эта дельта прибавляется к W
. Такой "косвенный" fine-tuning базовых весов.
5) LoRA+ — В оригинальной LoRA A
и B
обновляются с одинаковым learning rate. В LoRA+ авторы подняли LR для B
— и получили стабильнее и быстрее сходимость. Просто, но работает.