목록으로
Paper2025.06.01

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

요약

HunyuanVideo-Avatar는 동적이고 감정 제어가 가능하며 다중 캐릭터를 지원하는 오디오 기반 인간 애니메이션 비디오 생성을 위한 MM-DiT 기반 모델입니다.
이 모델은 character image injection module을 통해 캐릭터 일관성과 역동성을 보장하며, Audio Emotion Module(AEM)을 도입하여 오디오의 감정적 특징을 정밀하게 전이시켜 감정 제어를 가능하게 합니다.
️ 또한, Face-Aware Audio Adapter(FAA)를 활용하여 다중 캐릭터 시나리오에서 각 캐릭터에 독립적으로 오디오를 주입할 수 있어, 복잡한 대화 상황에서도 뛰어난 성능을 발휘합니다.

상세 내용

HunyuanVideo-Avatar는 audio-driven human animation 분야의 발전을 목표로 하며, 특히 (i) 높은 dynamic video를 생성하면서도 character consistency를 유지하는 것, (ii) character와 audio 간의 정확한 emotion alignment를 달성하는 것, (iii) multi-character audio-driven animation을 가능하게 하는 것과 같은 기존의 중요한 난제들을 해결하고자 합니다.

이러한 문제들을 해결하기 위해 HunyuanVideo-Avatar는 multimodal diffusion transformer (MM-DiT)-based model을 제안합니다. 이 모델은 dynamic하며, emotion-controllable하고, multi-character dialogue video를 동시에 생성할 수 있습니다.

핵심 기술 혁신은 세 가지로 구성됩니다:

  • Character Image Injection Module: 기존의 addition-based character conditioning scheme을 대체하도록 설계되었습니다. 이는 training과 inference 간의 inherent condition mismatch를 제거하여, dynamic motion과 강력한 character consistency를 보장합니다. 이 모듈은 입력 character image의 시각적 정보를 diffusion model의 latent space에 직접 주입하여, 생성된 비디오에서 특정 캐릭터의 외형적 특징이 일관되게 유지되도록 합니다.
  • Audio Emotion Module (AEM): 이 모듈은 emotion reference image로부터 emotional cue를 추출하여 target generated video로 전달하는 기능을 합니다. 이를 통해 fine-grained하고 accurate한 emotion style control이 가능해집니다. AEM은 레퍼런스 이미지에서 감정적 특징을 인코딩하고, 이를 비디오 생성 프로세스에 컨디셔닝 정보로 활용하여 캐릭터의 표정이나 움직임에 감정적 스타일을 반영합니다.
  • Face-Aware Audio Adapter (FAA): multi-character 시나리오에서 오디오에 반응하는 특정 캐릭터를 격리하기 위해 latent-level face mask와 함께 사용됩니다. 이는 cross-attention을 통해 독립적인 audio injection을 가능하게 합니다. FAA는 비디오의 latent space에서 특정 캐릭터의 얼굴 영역을 식별하고 마스킹하여, 해당 영역에만 독립적인 오디오 신호를 적용함으로써 여러 캐릭터가 등장하는 장면에서도 각 캐릭터가 개별 오디오에 맞춰 반응하도록 합니다.
  • 이러한 혁신적인 기술들을 통해 HunyuanVideo-Avatar는 벤치마크 데이터셋과 새롭게 제안된 wild dataset에서 state-of-the-art 방법들을 능가하는 성능을 보이며, dynamic하고 immersive한 시나리오에서 사실적인 avatar를 생성합니다.

    원본 보기
    Web
    Shared by Anonymous