Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:
Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
group-telegram.com/tensorbanana/1206
Create:
Last Update:
Last Update:
Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:
Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
BY Tensor Banana




Share with your friend now:
group-telegram.com/tensorbanana/1206