Telegram Group & Telegram Channel
Wan image2video и сравнение с skyreels_i2v

Alibaba выпустила сразу 5 моделей с разными размерами (1.3b, 14b), режимами (t2v, i2v) и разрешением (480p, 720p).

Wan поддерживает разрешение до 1280x720p 16fps (hunyuan skyreels i2v - до 544p 24fps)

В воркфлоу есть интерполяция до 16fps->30 fps (процесс занимает секунд 20-30). Без интерполяции видео - дерганое.

Wan NF4(размер 9GB), Wan Q4.gguf (10GB), fp8 (17GB) примерно равны по скорости. Но у квантованных есть деградация качества (хуже следование промпту, иногда генерируют дисторсию). Поэтому рекомендую именно fp8. Попробуйте nf4, если у вас мало vram (например, 12GB). При разрешении 720p намного меньше артефактов, чем при 480p, но время генерации возрастает значительно. Большинство приложенных примеров в 720p, если не указано иное.

Воркфлоу от kijai у меня был в два раза медленнее чем от comfy.

832x480 33fr 15st:
t2v_1.3b (5 GB vram) - 1 минута

832x480 33fr 15st:
i2v_14b_fp8 (18 GB vram) - 4.5 минут
i2v_14b_Q4  (20 GB vram) - 4.5 минут
i2v_14b_nf4 (19 GB vram) - 4 минуты

1280x720 33fr 15st:
14b_i2v_fp8 (20 GB) - 11.5 минут
14b_i2v_Q4  (15 GB) - 11 минут
14b_i2v_nf4 (15 GB) - 11 минут

1280x720 81fr 15st:
14b_i2v_fp8_kijai (39 GB) - 43 минуты

960x544 49 frames 15 steps:
wan_14b_i2v_kijai (29 GB vram) - 14 минут
skyreels_i2v_fp8 - 7.5 минут


- Разрабы WanAI рекомендуют 40 шагов для i2v и 50 шагов для t2v. Но это очень долго и ест много VRAM, поэтому я использую 15 шагов.

- Также есть video2video воркфлоу от kijai на основе 1.3b-t2v. Движение частично подхватывает, лицо не клонирует. Надо будет попробовать real2anime и наоборот.


## Cравнение с Hunyuan-skyreels-i2v

- Качество видео при схожих настройках схожее, но в skyreels меньше движения и хуже следование промпту. В некоторых трудных случаях (аниме и мультики) skyreels просто генерирует дисторсию.

- wan_14b_i2v-544p чуть медленнее чем чем hunyuan_skyreels_13b_i2.

- Wan-t2v из коробки умеет в наготу, но, в большинстве случаев, стремится разместить девушку спиной, либо закрыть причинное место каким-нибудь предметом. hunyuan_t2v в этом плане был покладистей, и анатомия лучше. Но для wan уже появляются лоры на civitai (пока только для wan1.3b), так что анатомию поправят. у i2v модели особых проблем с анатомией не заметил, что на входе то и на выходе. nsfw примеры выложил тут: https://www.group-telegram.com/tensor_art

- По моим впечатлениям, hunyuan_t2v чуть лучше справляется с реалистичностью лица, кожи и NSFW. У wan_t2v почему-то детализации не хватает.


## Установка
- обновляем комфи через update_comfyui.bat

- устанавливаем кастомные ноды через менеджер -> git url:
интерполяция: https://github.com/Fannovel16/ComfyUI-Frame-Interpolation
nf4: https://github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
GGUF: https://github.com/city96/ComfyUI-GGUF

Качаем модели отсюда https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main:
- umt5_xxl_fp8 в /text_encoders (внимание: umt5_xxl от kijai (для fp8, fp16) не работает с воркфлоу от comfyanonymous (для gguf, nf4) и наоборот)
- wan_2.1_vae в /vae:
- clip_vision_h в /clip_vision
- модели fp8 в /diffusion_models

Опционально, GGUF:
в /unet: https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf

Опционально, NF4:
nf4 в /diffusion_models: https://civitai.com/models/1299436?modelVersionId=1466629

Воркфлоу:
- wan_t2v_1.3b: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
- wan_i2v_14b_nf4_gguf: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
Там же есть другие ворклфлоу, например для skyreels_i2v.

- Опционально ставим triton и sage_attn для windows (ускорение на 15% и уменьшение потребления VRAM): https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/

## Выводы
Если надо качество - юзаем 14b_i2v_720p (ждем  11+ минут). Если нужна скорость - 14b_i2v_480p (ждем 4 минуты) или 1.3b_i2v_480p (1 минута). И ждем лоры.

Фото: David Dubnitskiy
потестить 14b онлайн: https://huggingface.co/spaces/Wan-AI/Wan2.1



group-telegram.com/tensorbanana/1187
Create:
Last Update:

Wan image2video и сравнение с skyreels_i2v

Alibaba выпустила сразу 5 моделей с разными размерами (1.3b, 14b), режимами (t2v, i2v) и разрешением (480p, 720p).

Wan поддерживает разрешение до 1280x720p 16fps (hunyuan skyreels i2v - до 544p 24fps)

В воркфлоу есть интерполяция до 16fps->30 fps (процесс занимает секунд 20-30). Без интерполяции видео - дерганое.

Wan NF4(размер 9GB), Wan Q4.gguf (10GB), fp8 (17GB) примерно равны по скорости. Но у квантованных есть деградация качества (хуже следование промпту, иногда генерируют дисторсию). Поэтому рекомендую именно fp8. Попробуйте nf4, если у вас мало vram (например, 12GB). При разрешении 720p намного меньше артефактов, чем при 480p, но время генерации возрастает значительно. Большинство приложенных примеров в 720p, если не указано иное.

Воркфлоу от kijai у меня был в два раза медленнее чем от comfy.

832x480 33fr 15st:
t2v_1.3b (5 GB vram) - 1 минута

832x480 33fr 15st:
i2v_14b_fp8 (18 GB vram) - 4.5 минут
i2v_14b_Q4  (20 GB vram) - 4.5 минут
i2v_14b_nf4 (19 GB vram) - 4 минуты

1280x720 33fr 15st:
14b_i2v_fp8 (20 GB) - 11.5 минут
14b_i2v_Q4  (15 GB) - 11 минут
14b_i2v_nf4 (15 GB) - 11 минут

1280x720 81fr 15st:
14b_i2v_fp8_kijai (39 GB) - 43 минуты

960x544 49 frames 15 steps:
wan_14b_i2v_kijai (29 GB vram) - 14 минут
skyreels_i2v_fp8 - 7.5 минут


- Разрабы WanAI рекомендуют 40 шагов для i2v и 50 шагов для t2v. Но это очень долго и ест много VRAM, поэтому я использую 15 шагов.

- Также есть video2video воркфлоу от kijai на основе 1.3b-t2v. Движение частично подхватывает, лицо не клонирует. Надо будет попробовать real2anime и наоборот.


## Cравнение с Hunyuan-skyreels-i2v

- Качество видео при схожих настройках схожее, но в skyreels меньше движения и хуже следование промпту. В некоторых трудных случаях (аниме и мультики) skyreels просто генерирует дисторсию.

- wan_14b_i2v-544p чуть медленнее чем чем hunyuan_skyreels_13b_i2.

- Wan-t2v из коробки умеет в наготу, но, в большинстве случаев, стремится разместить девушку спиной, либо закрыть причинное место каким-нибудь предметом. hunyuan_t2v в этом плане был покладистей, и анатомия лучше. Но для wan уже появляются лоры на civitai (пока только для wan1.3b), так что анатомию поправят. у i2v модели особых проблем с анатомией не заметил, что на входе то и на выходе. nsfw примеры выложил тут: https://www.group-telegram.com/tensor_art

- По моим впечатлениям, hunyuan_t2v чуть лучше справляется с реалистичностью лица, кожи и NSFW. У wan_t2v почему-то детализации не хватает.


## Установка
- обновляем комфи через update_comfyui.bat

- устанавливаем кастомные ноды через менеджер -> git url:
интерполяция: https://github.com/Fannovel16/ComfyUI-Frame-Interpolation
nf4: https://github.com/silveroxides/ComfyUI_bnb_nf4_fp4_Loaders
GGUF: https://github.com/city96/ComfyUI-GGUF

Качаем модели отсюда https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main:
- umt5_xxl_fp8 в /text_encoders (внимание: umt5_xxl от kijai (для fp8, fp16) не работает с воркфлоу от comfyanonymous (для gguf, nf4) и наоборот)
- wan_2.1_vae в /vae:
- clip_vision_h в /clip_vision
- модели fp8 в /diffusion_models

Опционально, GGUF:
в /unet: https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf

Опционально, NF4:
nf4 в /diffusion_models: https://civitai.com/models/1299436?modelVersionId=1466629

Воркфлоу:
- wan_t2v_1.3b: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1.3b_t2v.json
- wan_i2v_14b_nf4_gguf: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_i2v.json
Там же есть другие ворклфлоу, например для skyreels_i2v.

- Опционально ставим triton и sage_attn для windows (ускорение на 15% и уменьшение потребления VRAM): https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/

## Выводы
Если надо качество - юзаем 14b_i2v_720p (ждем  11+ минут). Если нужна скорость - 14b_i2v_480p (ждем 4 минуты) или 1.3b_i2v_480p (1 минута). И ждем лоры.

Фото: David Dubnitskiy
потестить 14b онлайн: https://huggingface.co/spaces/Wan-AI/Wan2.1

BY Tensor Banana




Share with your friend now:
group-telegram.com/tensorbanana/1187

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. READ MORE You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from hk


Telegram Tensor Banana
FROM American