Telegram Group & Telegram Channel
🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7640
Create:
Last Update:

🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar

BY Machinelearning





Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7640

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were uglyβ€”and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuableβ€”and many tech companies are valued on the basis of profits forecast for many years in the future. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from br


Telegram Machinelearning
FROM American