Alibaba: выпустили Wan 2.1 VACE — единую модель для контролируемой генерации видео. До этого выходила превью версия и вариант под LTX.
Функционал:
* R2V (Reference-to-Video) — вписывание объекта или персонажа с референса в видео
* MV2V (Masked Video-to-Video) — выделение областей маской для их изменения или удаления
* Смена стиля через vid2vid
* Расширение кадра через outpaint
* Увеличение длины видео
* Контроль движения скетчем/позой/глубиной
* Колоризация
Это всё можно комбинировать.
Модель есть в размерах от 1.3B, которая должна легко запуститься на массовом железе, и подойдёт для набросков, мудбордов, анимации. До 14B, которая даёт хорошее качество, но запускать нужно с выгрузкой в RAM или квантизацией, чтобы впихнуть в 24 ГБ VRAM.
Kijai уже наваял веса и обновил ноды, враппер для Wan, и воркфлоу для Comfy.
Я потестил на 4090 и 128 ГБ RAM. В воркфлоу есть много оптимизаций, но даже так нужно постараться запустить без проблем. Пробовал до этого на Wan F2FL ноду VRAM Management для агрессивной выгрузки в RAM и помогало, но тут выдаёт ошибку мол модель должна быть на одном и том же девайсе (CPU или CUDA) и игры с параметрам не помогают.
Подрубил вместо неё BlockSwap для выгрузки блоков трансформера в оперативку, и тогда запустилось. Кстати в ноде WanVideo VACE Model Select выбирайте модель VACE 1.3B или 14B для контроля, а в WanVideo Model Loader выбирайте соответствующую базовую t2v версию такого же размера, а не VACE и там и там, иначе будет ошибка.
1.3B генерит R2V видео 480p где-то 4 минуты, а дефолтные 512х512 минуты 2-3. С Fast FP16 плюс TeaCache можно ещё ускорить ощутимо. Оптимизатор Torch Compile позже опробую на поставленной Ubuntu.
14B по рефу и глубине генерила те же дефолтные 512х512 уже чуть больше часа. И это с включённым TeaCache. Качество ок, порадовало, что текст на футболке сохранился. На больших разрешениях пока запустить не удалось даже с ограничением количества кадров (frame load cap). Так что, если bf16 веса модели у вас при 24ГБ VRAM не запускаются, пробуйте fp8.
Сайт
Гитхаб
Хаггинг
Comfy
Демо (1.3B модель)
Функционал:
* R2V (Reference-to-Video) — вписывание объекта или персонажа с референса в видео
* MV2V (Masked Video-to-Video) — выделение областей маской для их изменения или удаления
* Смена стиля через vid2vid
* Расширение кадра через outpaint
* Увеличение длины видео
* Контроль движения скетчем/позой/глубиной
* Колоризация
Это всё можно комбинировать.
Модель есть в размерах от 1.3B, которая должна легко запуститься на массовом железе, и подойдёт для набросков, мудбордов, анимации. До 14B, которая даёт хорошее качество, но запускать нужно с выгрузкой в RAM или квантизацией, чтобы впихнуть в 24 ГБ VRAM.
Kijai уже наваял веса и обновил ноды, враппер для Wan, и воркфлоу для Comfy.
Я потестил на 4090 и 128 ГБ RAM. В воркфлоу есть много оптимизаций, но даже так нужно постараться запустить без проблем. Пробовал до этого на Wan F2FL ноду VRAM Management для агрессивной выгрузки в RAM и помогало, но тут выдаёт ошибку мол модель должна быть на одном и том же девайсе (CPU или CUDA) и игры с параметрам не помогают.
Подрубил вместо неё BlockSwap для выгрузки блоков трансформера в оперативку, и тогда запустилось. Кстати в ноде WanVideo VACE Model Select выбирайте модель VACE 1.3B или 14B для контроля, а в WanVideo Model Loader выбирайте соответствующую базовую t2v версию такого же размера, а не VACE и там и там, иначе будет ошибка.
1.3B генерит R2V видео 480p где-то 4 минуты, а дефолтные 512х512 минуты 2-3. С Fast FP16 плюс TeaCache можно ещё ускорить ощутимо. Оптимизатор Torch Compile позже опробую на поставленной Ubuntu.
14B по рефу и глубине генерила те же дефолтные 512х512 уже чуть больше часа. И это с включённым TeaCache. Качество ок, порадовало, что текст на футболке сохранился. На больших разрешениях пока запустить не удалось даже с ограничением количества кадров (frame load cap). Так что, если bf16 веса модели у вас при 24ГБ VRAM не запускаются, пробуйте fp8.
Сайт
Гитхаб
Хаггинг
Comfy
Демо (1.3B модель)
group-telegram.com/Psy_Eyes/2767
Create:
Last Update:
Last Update:
Alibaba: выпустили Wan 2.1 VACE — единую модель для контролируемой генерации видео. До этого выходила превью версия и вариант под LTX.
Функционал:
* R2V (Reference-to-Video) — вписывание объекта или персонажа с референса в видео
* MV2V (Masked Video-to-Video) — выделение областей маской для их изменения или удаления
* Смена стиля через vid2vid
* Расширение кадра через outpaint
* Увеличение длины видео
* Контроль движения скетчем/позой/глубиной
* Колоризация
Это всё можно комбинировать.
Модель есть в размерах от 1.3B, которая должна легко запуститься на массовом железе, и подойдёт для набросков, мудбордов, анимации. До 14B, которая даёт хорошее качество, но запускать нужно с выгрузкой в RAM или квантизацией, чтобы впихнуть в 24 ГБ VRAM.
Kijai уже наваял веса и обновил ноды, враппер для Wan, и воркфлоу для Comfy.
Я потестил на 4090 и 128 ГБ RAM. В воркфлоу есть много оптимизаций, но даже так нужно постараться запустить без проблем. Пробовал до этого на Wan F2FL ноду VRAM Management для агрессивной выгрузки в RAM и помогало, но тут выдаёт ошибку мол модель должна быть на одном и том же девайсе (CPU или CUDA) и игры с параметрам не помогают.
Подрубил вместо неё BlockSwap для выгрузки блоков трансформера в оперативку, и тогда запустилось. Кстати в ноде WanVideo VACE Model Select выбирайте модель VACE 1.3B или 14B для контроля, а в WanVideo Model Loader выбирайте соответствующую базовую t2v версию такого же размера, а не VACE и там и там, иначе будет ошибка.
1.3B генерит R2V видео 480p где-то 4 минуты, а дефолтные 512х512 минуты 2-3. С Fast FP16 плюс TeaCache можно ещё ускорить ощутимо. Оптимизатор Torch Compile позже опробую на поставленной Ubuntu.
14B по рефу и глубине генерила те же дефолтные 512х512 уже чуть больше часа. И это с включённым TeaCache. Качество ок, порадовало, что текст на футболке сохранился. На больших разрешениях пока запустить не удалось даже с ограничением количества кадров (frame load cap). Так что, если bf16 веса модели у вас при 24ГБ VRAM не запускаются, пробуйте fp8.
Сайт
Гитхаб
Хаггинг
Comfy
Демо (1.3B модель)
Функционал:
* R2V (Reference-to-Video) — вписывание объекта или персонажа с референса в видео
* MV2V (Masked Video-to-Video) — выделение областей маской для их изменения или удаления
* Смена стиля через vid2vid
* Расширение кадра через outpaint
* Увеличение длины видео
* Контроль движения скетчем/позой/глубиной
* Колоризация
Это всё можно комбинировать.
Модель есть в размерах от 1.3B, которая должна легко запуститься на массовом железе, и подойдёт для набросков, мудбордов, анимации. До 14B, которая даёт хорошее качество, но запускать нужно с выгрузкой в RAM или квантизацией, чтобы впихнуть в 24 ГБ VRAM.
Kijai уже наваял веса и обновил ноды, враппер для Wan, и воркфлоу для Comfy.
Я потестил на 4090 и 128 ГБ RAM. В воркфлоу есть много оптимизаций, но даже так нужно постараться запустить без проблем. Пробовал до этого на Wan F2FL ноду VRAM Management для агрессивной выгрузки в RAM и помогало, но тут выдаёт ошибку мол модель должна быть на одном и том же девайсе (CPU или CUDA) и игры с параметрам не помогают.
Подрубил вместо неё BlockSwap для выгрузки блоков трансформера в оперативку, и тогда запустилось. Кстати в ноде WanVideo VACE Model Select выбирайте модель VACE 1.3B или 14B для контроля, а в WanVideo Model Loader выбирайте соответствующую базовую t2v версию такого же размера, а не VACE и там и там, иначе будет ошибка.
1.3B генерит R2V видео 480p где-то 4 минуты, а дефолтные 512х512 минуты 2-3. С Fast FP16 плюс TeaCache можно ещё ускорить ощутимо. Оптимизатор Torch Compile позже опробую на поставленной Ubuntu.
14B по рефу и глубине генерила те же дефолтные 512х512 уже чуть больше часа. И это с включённым TeaCache. Качество ок, порадовало, что текст на футболке сохранился. На больших разрешениях пока запустить не удалось даже с ограничением количества кадров (frame load cap). Так что, если bf16 веса модели у вас при 24ГБ VRAM не запускаются, пробуйте fp8.
Сайт
Гитхаб
Хаггинг
Comfy
Демо (1.3B модель)
BY Psy Eyes
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/Psy_Eyes/2767