group-telegram.com/mashkka_ds/1605
Last Update:
⚡️AuraFlow v0.1 — новый open-source text-to-image проект на базе диффузионных трансформеров (по сути имплементация ставшей уже закрытой StableDiffusion 3 с некоторыми архитектурными изменениями)
Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров
Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:
from diffusers import AuraFlowPipeline
Модель показывает SoTA на бенчмарке GenEval — 0.703 (с учётом prompt enhancement)
Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉
@complete_ai