group-telegram.com/quant_prune_distill/486
Last Update:
Метод
Основная фича, которая обеспечивает стабильность и эффективность низкобитных операций, — это аппаратная поддержка операций с квантизованными тензорами с малыми группами. Чем меньше количество весов, для которых берется общий масштаб (скейл), тем точнее их можно аппроксимировать, но тем и больше накладные расходы на хранение и операции с ними.
Дабы уменьшить расходы по памяти скейлы хранятся в меньшей точности. А операции с ними имеют эффективную кернельную реализацию, что обеспечивает малое замедление по сравнению с per-tensor/per-channel
кватнизацией.
1️⃣ NVFP4 - это FP4 (E2M1) с group_size 16, где скейл квантизуется в FP8 (E4M3). Итого 4.5 бит на параметр.
2️⃣ Семейство MXFP форматов включает в себя 4/6/8-бита. Скейл квантизуется в экзотический E8M0 формат - т.е в логарифмическую шкалу, благодаря чему операции со скейлами можно свести к очень дешевым битовым сдвигам. Размер группы 32 - т.е имеем 4.25 бит на параметр.
Эксперименты
В Whitepaper MXFP формата прогнали эксперименты на PTQ и QAT Vision/Audio/Text модельках (BERT и Encoder-Decoder для перевода с языка на язык). Наивный PTQ каст в MXFP8 работает ожидаемо без просадок, в MXFP6/MXFP4 имеет место заметное ухудшение, но небольшой QAT позволяет почти восстановить качество в большинстве случаев до уровня half precision.
Затем авторы гоняют обучение с весами/активациями/градиентами квантованными в MXFP6 на GPTшкам от 20M до 1.5B и кривая обучения почти совпадает c half-precision (за исключение спайков).
Последующие статьи, заслуживающие отдельного разбора
💥 Training LLMs with MXFP4
💥 И совсем свежая Quartet от коллег из IST (и в частности @black_samorez_channel)
Показали эффективность обучения в MXFP4 на более серьезных масштабах.
В первой статье смогли добиться ускорения 1.7x против bf16, и 1.3x против fp8, а в Quartet 2.3x против bf16 и 1.6x против fp8.
В качестве удачного внедрения NVFP4 можно вспомнить (тоже заслуживающую разбора) SVD-Quant https://hanlab.mit.edu/blog/svdquant-nvfp4, где на RTX 5090 смогли добиться 3-х кратного ускорения инференса FLUX.
Выводы
Переход к FP4 в качестве стандартного типа для обучения кажется делом времени (широкого распространения Blackwell чипов в датацентрах). Интрига в том, в какой момент придется остановиться. Дойдем ли до полностью тернарных сетей в будущем, или они окажутся Парето-неоптимальными? Время ⏳ покажет…
BY КПД
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/quant_prune_distill/486