Telegram Group & Telegram Channel
Тренируем лору на персонажа для Wan 1.3b под виндой

- треним только на картинках
- в musubi tuner (с GUI)
- я тренил в 640x1024, но можно и 480x832. чем больше размер, тем больше vram
- vram от 4GB (при батче 1)
- тренировка с видео занимает намного больше vram (480x852, 85 frames, batch 1 - 17 GB). В каком разрешении треним, в таком и инференс надо делать. wan vace 1.3b натренирован в разрешении 480x832
- на 30 картинках тренил 1 час на 3090
- на 30 картинках + 14 видео тренил 15 часов (лора на действие)
- для увеличения похожести в vace подаем референсную картинку с лицом
- поддерживается t2v, vace_i2v. (хз про wan-fun, wan-phantom)
- рекомендую инференс через vace_t2v+reference, vace-i2v

Установка под виндой

conda create -n musubi
conda install python=3.10
pip install torch==2.5.1 torchvision --index-url https://download.pytorch.org/whl/cu124
pip install triton-windows
pip install sageattention==1.0.6

git clone https://github.com/Kvento/musubi-tuner-wan-gui
cd musubi-tuner-wan-gui
pip install -r requirements.txt

#создаем папку \musubi-tuner-wan-gui\models\Wan\
mkdir models
cd models
mkdir models Wan


ручками качаем модельки в папку \musubi-tuner-wan-gui\models\Wan\
1.3b: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_1.3B_bf16.safetensors
vae: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
t5: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/resolve/main/models_t5_umt5-xxl-enc-bf16.pth
clip: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/blob/main/models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth


Если вы под виндой - надо в коде выключить libuv и оставить видимость только одной видюхи.

- в файле wan_lora_trainer_gui.py после строк импорта в строке 9 добавить строки:
os.environ["USE_LIBUV"] = "0"  # Force-disable libuv for windows
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # id of cuda device, starting from 0


- в файле hv_train_network.py после строк импорта в строке 54 добавить те же строки, что и выше.


# Датасет
30 картинок с лицом. Большинство - лицевые портреты, несколько - в полный рост. С описанием картинок я не заморачивался, ставил везде одинаковое: "Emm4w woman". Но есть вероятность, что подробное описание будет лучше.
картинки с текстовыми описниями вида image1.jpg + image1.txt сюда:
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\images\
создаем пустую папку под кэш
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\cache\

мой toml конфиг файл с описанием датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_emm4w.toml
положите его внутрь и потом пропишите путь до него в GUI
Внутри там же есть закомментированный пример тренировки на картинках+видео.

в dataset_emm4w.toml файле слэши надо экранировать.
Батчами тренировать быстрее чем по 1 картинке.
в dataset_emm4w.toml измените максимальный размер батча под ваш размер vram. Если будет вылетать - снизьте значение batch_size. 16 для 24 GB, 8 - 12 GB. musubi группирует картинки по размеру в батчи. Если все картинки разного размера, то и батчи будут маленькие, не будут занимать много vram.

Тренить по видео пока не будем, их надо самому порезать на короткие куски длиной до 5 секунд (я тренил лору на снимание предметов одежды).

# запуск
Запускаем GUI из под конды в командной строке:
Start_Wan_GUI.bat
(кликать мышкой на бат не стоит)

В GUI установите значение "save every N epochs" - например каждую 5-ю. Если вы посреди тренировки нажмете СТОП, то принудительного сохранения не будет, потеряете какой-то промежуточный прогресс.

После тренировки нужно сконвертировать safetensors файл в формат для comfy на третьей вкладке GUI.

лора на Эмму: https://huggingface.co/Ftfyhh/wan1.3b_EmmaW_lora
на раздевание: https://huggingface.co/Ftfyhh/wan_1.3b_lora_pnts_drop
workflow wan vace text2video + ref: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_vace_1.3b_ref_and_lora.json
видео с моими лорами (nsfw): https://www.group-telegram.com/tensor_art/616



group-telegram.com/tensorbanana/1201
Create:
Last Update:

Тренируем лору на персонажа для Wan 1.3b под виндой

- треним только на картинках
- в musubi tuner (с GUI)
- я тренил в 640x1024, но можно и 480x832. чем больше размер, тем больше vram
- vram от 4GB (при батче 1)
- тренировка с видео занимает намного больше vram (480x852, 85 frames, batch 1 - 17 GB). В каком разрешении треним, в таком и инференс надо делать. wan vace 1.3b натренирован в разрешении 480x832
- на 30 картинках тренил 1 час на 3090
- на 30 картинках + 14 видео тренил 15 часов (лора на действие)
- для увеличения похожести в vace подаем референсную картинку с лицом
- поддерживается t2v, vace_i2v. (хз про wan-fun, wan-phantom)
- рекомендую инференс через vace_t2v+reference, vace-i2v

Установка под виндой

conda create -n musubi
conda install python=3.10
pip install torch==2.5.1 torchvision --index-url https://download.pytorch.org/whl/cu124
pip install triton-windows
pip install sageattention==1.0.6

git clone https://github.com/Kvento/musubi-tuner-wan-gui
cd musubi-tuner-wan-gui
pip install -r requirements.txt

#создаем папку \musubi-tuner-wan-gui\models\Wan\
mkdir models
cd models
mkdir models Wan


ручками качаем модельки в папку \musubi-tuner-wan-gui\models\Wan\
1.3b: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_1.3B_bf16.safetensors
vae: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
t5: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/resolve/main/models_t5_umt5-xxl-enc-bf16.pth
clip: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/blob/main/models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth


Если вы под виндой - надо в коде выключить libuv и оставить видимость только одной видюхи.

- в файле wan_lora_trainer_gui.py после строк импорта в строке 9 добавить строки:
os.environ["USE_LIBUV"] = "0"  # Force-disable libuv for windows
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # id of cuda device, starting from 0


- в файле hv_train_network.py после строк импорта в строке 54 добавить те же строки, что и выше.


# Датасет
30 картинок с лицом. Большинство - лицевые портреты, несколько - в полный рост. С описанием картинок я не заморачивался, ставил везде одинаковое: "Emm4w woman". Но есть вероятность, что подробное описание будет лучше.
картинки с текстовыми описниями вида image1.jpg + image1.txt сюда:
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\images\
создаем пустую папку под кэш
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\cache\

мой toml конфиг файл с описанием датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_emm4w.toml
положите его внутрь и потом пропишите путь до него в GUI
Внутри там же есть закомментированный пример тренировки на картинках+видео.

в dataset_emm4w.toml файле слэши надо экранировать.
Батчами тренировать быстрее чем по 1 картинке.
в dataset_emm4w.toml измените максимальный размер батча под ваш размер vram. Если будет вылетать - снизьте значение batch_size. 16 для 24 GB, 8 - 12 GB. musubi группирует картинки по размеру в батчи. Если все картинки разного размера, то и батчи будут маленькие, не будут занимать много vram.

Тренить по видео пока не будем, их надо самому порезать на короткие куски длиной до 5 секунд (я тренил лору на снимание предметов одежды).

# запуск
Запускаем GUI из под конды в командной строке:
Start_Wan_GUI.bat
(кликать мышкой на бат не стоит)

В GUI установите значение "save every N epochs" - например каждую 5-ю. Если вы посреди тренировки нажмете СТОП, то принудительного сохранения не будет, потеряете какой-то промежуточный прогресс.

После тренировки нужно сконвертировать safetensors файл в формат для comfy на третьей вкладке GUI.

лора на Эмму: https://huggingface.co/Ftfyhh/wan1.3b_EmmaW_lora
на раздевание: https://huggingface.co/Ftfyhh/wan_1.3b_lora_pnts_drop
workflow wan vace text2video + ref: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_vace_1.3b_ref_and_lora.json
видео с моими лорами (nsfw): https://www.group-telegram.com/tensor_art/616

BY Tensor Banana






Share with your friend now:
group-telegram.com/tensorbanana/1201

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from sg


Telegram Tensor Banana
FROM American