MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
👍11❤2
group-telegram.com/GreenNeuralRobots/9198
Create:
Last Update:
Last Update:
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
BY Нейронавт | Нейросети в творчестве
Share with your friend now:
group-telegram.com/GreenNeuralRobots/9198
