Telegram Group & Telegram Channel
Метод

Основная фича, которая обеспечивает стабильность и эффективность низкобитных операций, — это аппаратная поддержка операций с квантизованными тензорами с малыми группами. Чем меньше количество весов, для которых берется общий масштаб (скейл), тем точнее их можно аппроксимировать, но тем и больше накладные расходы на хранение и операции с ними.

Дабы уменьшить расходы по памяти скейлы хранятся в меньшей точности. А операции с ними имеют эффективную кернельную реализацию, что обеспечивает малое замедление по сравнению с per-tensor/per-channel кватнизацией.

1️⃣ NVFP4 - это FP4 (E2M1) с group_size 16, где скейл квантизуется в FP8 (E4M3). Итого 4.5 бит на параметр.

2️⃣ Семейство MXFP форматов включает в себя 4/6/8-бита. Скейл квантизуется в экзотический E8M0 формат - т.е в логарифмическую шкалу, благодаря чему операции со скейлами можно свести к очень дешевым битовым сдвигам. Размер группы 32 - т.е имеем 4.25 бит на параметр.

Эксперименты

В Whitepaper MXFP формата прогнали эксперименты на PTQ и QAT Vision/Audio/Text модельках (BERT и Encoder-Decoder для перевода с языка на язык). Наивный PTQ каст в MXFP8 работает ожидаемо без просадок, в MXFP6/MXFP4 имеет место заметное ухудшение, но небольшой QAT позволяет почти восстановить качество в большинстве случаев до уровня half precision.

Затем авторы гоняют обучение с весами/активациями/градиентами квантованными в MXFP6 на GPTшкам от 20M до 1.5B и кривая обучения почти совпадает c half-precision (за исключение спайков).

Последующие статьи, заслуживающие отдельного разбора
💥 Training LLMs with MXFP4
💥 И совсем свежая Quartet от коллег из IST (и в частности @black_samorez_channel)
Показали эффективность обучения в MXFP4 на более серьезных масштабах.

В первой статье смогли добиться ускорения 1.7x против bf16, и 1.3x против fp8, а в Quartet 2.3x против bf16 и 1.6x против fp8.

В качестве удачного внедрения NVFP4 можно вспомнить (тоже заслуживающую разбора) SVD-Quant https://hanlab.mit.edu/blog/svdquant-nvfp4, где на RTX 5090 смогли добиться 3-х кратного ускорения инференса FLUX.

Выводы

Переход к FP4 в качестве стандартного типа для обучения кажется делом времени (широкого распространения Blackwell чипов в датацентрах). Интрига в том, в какой момент придется остановиться. Дойдем ли до полностью тернарных сетей в будущем, или они окажутся Парето-неоптимальными? Время покажет…



group-telegram.com/quant_prune_distill/486
Create:
Last Update:

Метод

Основная фича, которая обеспечивает стабильность и эффективность низкобитных операций, — это аппаратная поддержка операций с квантизованными тензорами с малыми группами. Чем меньше количество весов, для которых берется общий масштаб (скейл), тем точнее их можно аппроксимировать, но тем и больше накладные расходы на хранение и операции с ними.

Дабы уменьшить расходы по памяти скейлы хранятся в меньшей точности. А операции с ними имеют эффективную кернельную реализацию, что обеспечивает малое замедление по сравнению с per-tensor/per-channel кватнизацией.

1️⃣ NVFP4 - это FP4 (E2M1) с group_size 16, где скейл квантизуется в FP8 (E4M3). Итого 4.5 бит на параметр.

2️⃣ Семейство MXFP форматов включает в себя 4/6/8-бита. Скейл квантизуется в экзотический E8M0 формат - т.е в логарифмическую шкалу, благодаря чему операции со скейлами можно свести к очень дешевым битовым сдвигам. Размер группы 32 - т.е имеем 4.25 бит на параметр.

Эксперименты

В Whitepaper MXFP формата прогнали эксперименты на PTQ и QAT Vision/Audio/Text модельках (BERT и Encoder-Decoder для перевода с языка на язык). Наивный PTQ каст в MXFP8 работает ожидаемо без просадок, в MXFP6/MXFP4 имеет место заметное ухудшение, но небольшой QAT позволяет почти восстановить качество в большинстве случаев до уровня half precision.

Затем авторы гоняют обучение с весами/активациями/градиентами квантованными в MXFP6 на GPTшкам от 20M до 1.5B и кривая обучения почти совпадает c half-precision (за исключение спайков).

Последующие статьи, заслуживающие отдельного разбора
💥 Training LLMs with MXFP4
💥 И совсем свежая Quartet от коллег из IST (и в частности @black_samorez_channel)
Показали эффективность обучения в MXFP4 на более серьезных масштабах.

В первой статье смогли добиться ускорения 1.7x против bf16, и 1.3x против fp8, а в Quartet 2.3x против bf16 и 1.6x против fp8.

В качестве удачного внедрения NVFP4 можно вспомнить (тоже заслуживающую разбора) SVD-Quant https://hanlab.mit.edu/blog/svdquant-nvfp4, где на RTX 5090 смогли добиться 3-х кратного ускорения инференса FLUX.

Выводы

Переход к FP4 в качестве стандартного типа для обучения кажется делом времени (широкого распространения Blackwell чипов в датацентрах). Интрига в том, в какой момент придется остановиться. Дойдем ли до полностью тернарных сетей в будущем, или они окажутся Парето-неоптимальными? Время покажет…

BY КПД


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/quant_prune_distill/486

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from us


Telegram КПД
FROM American