Telegram Group & Telegram Channel
🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7640
Create:
Last Update:

🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar

BY Machinelearning





Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7640

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. On Telegram’s website, it says that Pavel Durov β€œsupports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from us


Telegram Machinelearning
FROM American