Telegram Group & Telegram Channel
Wan image2video и сравнение с skyreels_i2v

Alibaba выпустила сразу 5 моделей с разными размерами (1.3b, 14b), режимами (t2v, i2v) и разрешением (480p, 720p).

Wan поддерживает разрешение до 1280x720p 16fps (hunyuan skyreels i2v - до 544p 24fps)

В воркфлоу есть интерполяция до 16fps->30 fps (процесс занимает секунд 20-30). Без интерполяции видео - дерганое.

Wan NF4(размер 9GB), Wan Q4.gguf (10GB), fp8 (17GB) примерно равны по скорости. Но у квантованных есть деградация качества (хуже следование промпту, иногда генерируют дисторсию). Поэтому рекомендую именно fp8. Попробуйте nf4, если у вас мало vram (например, 12GB). При разрешении 720p намного меньше артефактов, чем при 480p, но время генерации возрастает значительно. Большинство приложенных примеров в 720p, если не указано иное.

Воркфлоу от kijai у меня был в два раза медленнее чем от comfy.

832x480 33fr 15st:
t2v_1.3b (5 GB vram) - 1 минута

832x480 33fr 15st:
i2v_14b_fp8 (18 GB vram) - 4.5 минут
i2v_14b_Q4  (20 GB vram) - 4.5 минут
i2v_14b_nf4 (19 GB vram) - 4 минуты

1280x720 33fr 15st:
14b_i2v_fp8 (20 GB) - 11.5 минут
14b_i2v_Q4  (15 GB) - 11 минут
14b_i2v_nf4 (15 GB) - 11 минут

1280x720 81fr 15st:
14b_i2v_fp8_kijai (39 GB) - 43 минуты

960x544 49 frames 15 steps:
wan_14b_i2v_kijai (29 GB vram) - 14 минут
skyreels_i2v_fp8 - 7.5 минут


- Разрабы WanAI рекомендуют 40 шагов для i2v и 50 шагов для t2v. Но это очень долго и ест много VRAM, поэтому я использую 15 шагов.

- Также есть video2video воркфлоу от kijai на основе 1.3b-t2v. Движение частично подхватывает, лицо не клонирует. Надо будет попробовать real2anime и наоборот.


## Cравнение с Hunyuan-skyreels-i2v

- Качество видео при схожих настройках схожее, но в skyreels меньше движения и хуже следование промпту. В некоторых трудных случаях (аниме и мультики) skyreels просто генерирует дисторсию.

- wan_14b_i2v-544p чуть медленнее чем чем hunyuan_skyreels_13b_i2.

- Wan-t2v из коробки умеет в наготу, но, в большинстве случаев, стремится разместить девушку спиной, либо закрыть причинное место каким-нибудь предметом. hunyuan_t2v в этом плане был покладистей, и анатомия лучше. Но для wan уже появляются лоры на civitai (пока только для wan1.3b), так что анатомию поправят. у i2v модели особых проблем с анатомией не заметил, что на входе то и на выходе. nsfw примеры выложил тут: https://www.group-telegram.com/tensor_art

- По моим впечатлениям, hunyuan_t2v чуть лучше справляется с реалистичностью лица, кожи и NSFW. У wan_t2v почему-то детализации не хватает.


## Установка
- обновляем комфи через update_comfyui.bat

- устанавливаем кастомные ноды через менеджер -> git url:
интерполяция: https://github.com/Fannovel16/ComfyUI-Frame-Interpolation
nf4: https://github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
GGUF: https://github.com/city96/ComfyUI-GGUF

Качаем модели отсюда https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main:
- umt5_xxl_fp8 в /text_encoders (внимание: umt5_xxl от kijai (для fp8, fp16) не работает с воркфлоу от comfyanonymous (для gguf, nf4) и наоборот)
- wan_2.1_vae в /vae:
- clip_vision_h в /clip_vision
- модели fp8 в /diffusion_models

Опционально, GGUF:
в /unet: https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf

Опционально, NF4:
nf4 в /diffusion_models: https://civitai.com/models/1299436?modelVersionId=1466629

Воркфлоу:
- wan_t2v_1.3b: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
- wan_i2v_14b_nf4_gguf: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
Там же есть другие ворклфлоу, например для skyreels_i2v.

- Опционально ставим triton и sage_attn для windows (ускорение на 15% и уменьшение потребления VRAM): https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/

## Выводы
Если надо качество - юзаем 14b_i2v_720p (ждем  11+ минут). Если нужна скорость - 14b_i2v_480p (ждем 4 минуты) или 1.3b_i2v_480p (1 минута). И ждем лоры.

Фото: David Dubnitskiy
потестить 14b онлайн: https://huggingface.co/spaces/Wan-AI/Wan2.1



group-telegram.com/tensorbanana/1189
Create:
Last Update:

Wan image2video и сравнение с skyreels_i2v

Alibaba выпустила сразу 5 моделей с разными размерами (1.3b, 14b), режимами (t2v, i2v) и разрешением (480p, 720p).

Wan поддерживает разрешение до 1280x720p 16fps (hunyuan skyreels i2v - до 544p 24fps)

В воркфлоу есть интерполяция до 16fps->30 fps (процесс занимает секунд 20-30). Без интерполяции видео - дерганое.

Wan NF4(размер 9GB), Wan Q4.gguf (10GB), fp8 (17GB) примерно равны по скорости. Но у квантованных есть деградация качества (хуже следование промпту, иногда генерируют дисторсию). Поэтому рекомендую именно fp8. Попробуйте nf4, если у вас мало vram (например, 12GB). При разрешении 720p намного меньше артефактов, чем при 480p, но время генерации возрастает значительно. Большинство приложенных примеров в 720p, если не указано иное.

Воркфлоу от kijai у меня был в два раза медленнее чем от comfy.

832x480 33fr 15st:
t2v_1.3b (5 GB vram) - 1 минута

832x480 33fr 15st:
i2v_14b_fp8 (18 GB vram) - 4.5 минут
i2v_14b_Q4  (20 GB vram) - 4.5 минут
i2v_14b_nf4 (19 GB vram) - 4 минуты

1280x720 33fr 15st:
14b_i2v_fp8 (20 GB) - 11.5 минут
14b_i2v_Q4  (15 GB) - 11 минут
14b_i2v_nf4 (15 GB) - 11 минут

1280x720 81fr 15st:
14b_i2v_fp8_kijai (39 GB) - 43 минуты

960x544 49 frames 15 steps:
wan_14b_i2v_kijai (29 GB vram) - 14 минут
skyreels_i2v_fp8 - 7.5 минут


- Разрабы WanAI рекомендуют 40 шагов для i2v и 50 шагов для t2v. Но это очень долго и ест много VRAM, поэтому я использую 15 шагов.

- Также есть video2video воркфлоу от kijai на основе 1.3b-t2v. Движение частично подхватывает, лицо не клонирует. Надо будет попробовать real2anime и наоборот.


## Cравнение с Hunyuan-skyreels-i2v

- Качество видео при схожих настройках схожее, но в skyreels меньше движения и хуже следование промпту. В некоторых трудных случаях (аниме и мультики) skyreels просто генерирует дисторсию.

- wan_14b_i2v-544p чуть медленнее чем чем hunyuan_skyreels_13b_i2.

- Wan-t2v из коробки умеет в наготу, но, в большинстве случаев, стремится разместить девушку спиной, либо закрыть причинное место каким-нибудь предметом. hunyuan_t2v в этом плане был покладистей, и анатомия лучше. Но для wan уже появляются лоры на civitai (пока только для wan1.3b), так что анатомию поправят. у i2v модели особых проблем с анатомией не заметил, что на входе то и на выходе. nsfw примеры выложил тут: https://www.group-telegram.com/tensor_art

- По моим впечатлениям, hunyuan_t2v чуть лучше справляется с реалистичностью лица, кожи и NSFW. У wan_t2v почему-то детализации не хватает.


## Установка
- обновляем комфи через update_comfyui.bat

- устанавливаем кастомные ноды через менеджер -> git url:
интерполяция: https://github.com/Fannovel16/ComfyUI-Frame-Interpolation
nf4: https://github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
GGUF: https://github.com/city96/ComfyUI-GGUF

Качаем модели отсюда https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main:
- umt5_xxl_fp8 в /text_encoders (внимание: umt5_xxl от kijai (для fp8, fp16) не работает с воркфлоу от comfyanonymous (для gguf, nf4) и наоборот)
- wan_2.1_vae в /vae:
- clip_vision_h в /clip_vision
- модели fp8 в /diffusion_models

Опционально, GGUF:
в /unet: https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf

Опционально, NF4:
nf4 в /diffusion_models: https://civitai.com/models/1299436?modelVersionId=1466629

Воркфлоу:
- wan_t2v_1.3b: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
- wan_i2v_14b_nf4_gguf: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
Там же есть другие ворклфлоу, например для skyreels_i2v.

- Опционально ставим triton и sage_attn для windows (ускорение на 15% и уменьшение потребления VRAM): https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/

## Выводы
Если надо качество - юзаем 14b_i2v_720p (ждем  11+ минут). Если нужна скорость - 14b_i2v_480p (ждем 4 минуты) или 1.3b_i2v_480p (1 минута). И ждем лоры.

Фото: David Dubnitskiy
потестить 14b онлайн: https://huggingface.co/spaces/Wan-AI/Wan2.1

BY Tensor Banana




Share with your friend now:
group-telegram.com/tensorbanana/1189

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from br


Telegram Tensor Banana
FROM American