Paper

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

2025.06.01

·Web·by Anonymous

#Audio-Driven Animation#Human Animation#Diffusion Transformer#Multi-Character Animation#AI

Key Points

1HunyuanVideo-Avatar proposes a novel multimodal diffusion transformer (MM-DiT) based model to overcome challenges in audio-driven human animation, including generating dynamic videos, maintaining character consistency, achieving precise emotion alignment, and enabling multi-character scenarios.
2The model introduces three key innovations: a character image injection module for robust consistency, an Audio Emotion Module (AEM) for transferring emotional cues from reference images, and a Face-Aware Audio Adapter (FAA) for isolated audio injection in multi-character animations.
3HunyuanVideo-Avatar demonstrates superior performance over state-of-the-art methods, generating high-fidelity, emotion-controllable, and multi-character dialogue videos in dynamic and immersive settings.

Paper

2025.06.01

·Web·by Anonymous

#Audio-Driven Animation#Human Animation#Diffusion Transformer#Multi-Character Animation#AI

1HunyuanVideo-Avatar proposes a novel multimodal diffusion transformer (MM-DiT) based model to overcome challenges in audio-driven human animation, including generating dynamic videos, maintaining character consistency, achieving precise emotion alignment, and enabling multi-character scenarios.
2The model introduces three key innovations: a character image injection module for robust consistency, an Audio Emotion Module (AEM) for transferring emotional cues from reference images, and a Face-Aware Audio Adapter (FAA) for isolated audio injection in multi-character animations.
3HunyuanVideo-Avatar demonstrates superior performance over state-of-the-art methods, generating high-fidelity, emotion-controllable, and multi-character dialogue videos in dynamic and immersive settings.