Telegram Group & Telegram Channel
Метод

Основная фича, которая обеспечивает стабильность и эффективность низкобитных операций, — это аппаратная поддержка операций с квантизованными тензорами с малыми группами. Чем меньше количество весов, для которых берется общий масштаб (скейл), тем точнее их можно аппроксимировать, но тем и больше накладные расходы на хранение и операции с ними.

Дабы уменьшить расходы по памяти скейлы хранятся в меньшей точности. А операции с ними имеют эффективную кернельную реализацию, что обеспечивает малое замедление по сравнению с per-tensor/per-channel кватнизацией.

1️⃣ NVFP4 - это FP4 (E2M1) с group_size 16, где скейл квантизуется в FP8 (E4M3). Итого 4.5 бит на параметр.

2️⃣ Семейство MXFP форматов включает в себя 4/6/8-бита. Скейл квантизуется в экзотический E8M0 формат - т.е в логарифмическую шкалу, благодаря чему операции со скейлами можно свести к очень дешевым битовым сдвигам. Размер группы 32 - т.е имеем 4.25 бит на параметр.

Эксперименты

В Whitepaper MXFP формата прогнали эксперименты на PTQ и QAT Vision/Audio/Text модельках (BERT и Encoder-Decoder для перевода с языка на язык). Наивный PTQ каст в MXFP8 работает ожидаемо без просадок, в MXFP6/MXFP4 имеет место заметное ухудшение, но небольшой QAT позволяет почти восстановить качество в большинстве случаев до уровня half precision.

Затем авторы гоняют обучение с весами/активациями/градиентами квантованными в MXFP6 на GPTшкам от 20M до 1.5B и кривая обучения почти совпадает c half-precision (за исключение спайков).

Последующие статьи, заслуживающие отдельного разбора
💥 Training LLMs with MXFP4
💥 И совсем свежая Quartet от коллег из IST (и в частности @black_samorez_channel)
Показали эффективность обучения в MXFP4 на более серьезных масштабах.

В первой статье смогли добиться ускорения 1.7x против bf16, и 1.3x против fp8, а в Quartet 2.3x против bf16 и 1.6x против fp8.

В качестве удачного внедрения NVFP4 можно вспомнить (тоже заслуживающую разбора) SVD-Quant https://hanlab.mit.edu/blog/svdquant-nvfp4, где на RTX 5090 смогли добиться 3-х кратного ускорения инференса FLUX.

Выводы

Переход к FP4 в качестве стандартного типа для обучения кажется делом времени (широкого распространения Blackwell чипов в датацентрах). Интрига в том, в какой момент придется остановиться. Дойдем ли до полностью тернарных сетей в будущем, или они окажутся Парето-неоптимальными? Время покажет…
🔥9👍1



group-telegram.com/quant_prune_distill/486
Create:
Last Update:

Метод

Основная фича, которая обеспечивает стабильность и эффективность низкобитных операций, — это аппаратная поддержка операций с квантизованными тензорами с малыми группами. Чем меньше количество весов, для которых берется общий масштаб (скейл), тем точнее их можно аппроксимировать, но тем и больше накладные расходы на хранение и операции с ними.

Дабы уменьшить расходы по памяти скейлы хранятся в меньшей точности. А операции с ними имеют эффективную кернельную реализацию, что обеспечивает малое замедление по сравнению с per-tensor/per-channel кватнизацией.

1️⃣ NVFP4 - это FP4 (E2M1) с group_size 16, где скейл квантизуется в FP8 (E4M3). Итого 4.5 бит на параметр.

2️⃣ Семейство MXFP форматов включает в себя 4/6/8-бита. Скейл квантизуется в экзотический E8M0 формат - т.е в логарифмическую шкалу, благодаря чему операции со скейлами можно свести к очень дешевым битовым сдвигам. Размер группы 32 - т.е имеем 4.25 бит на параметр.

Эксперименты

В Whitepaper MXFP формата прогнали эксперименты на PTQ и QAT Vision/Audio/Text модельках (BERT и Encoder-Decoder для перевода с языка на язык). Наивный PTQ каст в MXFP8 работает ожидаемо без просадок, в MXFP6/MXFP4 имеет место заметное ухудшение, но небольшой QAT позволяет почти восстановить качество в большинстве случаев до уровня half precision.

Затем авторы гоняют обучение с весами/активациями/градиентами квантованными в MXFP6 на GPTшкам от 20M до 1.5B и кривая обучения почти совпадает c half-precision (за исключение спайков).

Последующие статьи, заслуживающие отдельного разбора
💥 Training LLMs with MXFP4
💥 И совсем свежая Quartet от коллег из IST (и в частности @black_samorez_channel)
Показали эффективность обучения в MXFP4 на более серьезных масштабах.

В первой статье смогли добиться ускорения 1.7x против bf16, и 1.3x против fp8, а в Quartet 2.3x против bf16 и 1.6x против fp8.

В качестве удачного внедрения NVFP4 можно вспомнить (тоже заслуживающую разбора) SVD-Quant https://hanlab.mit.edu/blog/svdquant-nvfp4, где на RTX 5090 смогли добиться 3-х кратного ускорения инференса FLUX.

Выводы

Переход к FP4 в качестве стандартного типа для обучения кажется делом времени (широкого распространения Blackwell чипов в датацентрах). Интрига в том, в какой момент придется остановиться. Дойдем ли до полностью тернарных сетей в будущем, или они окажутся Парето-неоптимальными? Время покажет…

BY КПД


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/quant_prune_distill/486

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. READ MORE He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from in


Telegram КПД
FROM American