
NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice
핵심 포인트
- 1PersonaPlex의 핵심 목표는 기존의 ASR-LLM-TTS 캐스케이드 시스템의 부자연스러움과 기존 Full-duplex 모델의 제한된 커스터마이징 문제를 동시에 해결하는 것입니다.
- 2PersonaPlex는 Moshi 아키텍처를 기반으로 음성 프롬프트와 텍스트 프롬프트를 함께 사용하여 Voice와 Role을 유연하게 제어하며, 동시 청취 및 발화를 통해 자연스러운 대화 흐름을 가능하게 합니다.
- 3이 모델은 Real conversation 데이터와 Synthetic 데이터를 효과적으로 결합하여 높은 대화 역학(Conversation Dynamics) 및 Task adherence를 보이며, 훈련 분포를 넘어선 새로운 시나리오에서도 뛰어난 일반화(Generalization) 능력을 입증했습니다.
PersonaPlex는 대화형 AI 시스템의 오랜 문제, 즉 전통적인 ASR-LLM-TTS 캐스케이드(cascades) 방식이 제공하는 목소리와 역할의 커스터마이징 유연성과 Moshi와 같은 풀-듀플렉스(full-duplex) 모델이 제공하는 자연스러운 대화 흐름(끼어들기, 자연스러운 턴-테이킹) 사이의 트레이드오프를 해결합니다. 이 시스템은 사용자가 다양한 목소리를 선택하고 텍스트 프롬프트(text prompts)를 통해 어떠한 역할이든 정의할 수 있게 하면서, 동시에 자연스러운 대화 흐름과 사용자 지정 페르소나(persona)를 유지합니다.
PersonaPlex의 핵심 기능은 다음과 같습니다:
- 풀-듀플렉스(Full Duplex): 사용자가 말하는 동안 동시에 듣고 응답을 스트리밍(streaming)합니다. 이는 단순히 내용뿐만 아니라 일시 정지, 끼어들기, 백채널(“uh-huh”, “oh” 등)과 같은 대화 행동을 학습하게 합니다. ASR, LLM, TTS와 같은 개별 모델들을 사용하는 캐스케이드 시스템의 지연을 제거하여 낮은 지연 시간을 달성합니다.
- 커스터마이징(Customization):
voice prompt와text prompt라는 두 가지 입력을 통해 대화 동작을 정의합니다.voice prompt는 음성 특성, 말하는 스타일, 운율을 포착하는 오디오 임베딩(audio embedding)이며,text prompt는 역할, 배경 정보, 대화 맥락을 설명하는 자연어입니다. 이 두 입력은 일관된 페르소나를 생성하기 위해 함께 처리됩니다.
아키텍처(Architecture):
PersonaPlex는 Kyutai의 Moshi 아키텍처를 기반으로 하며 70억 개의 파라미터를 가집니다. 핵심 구성 요소는 다음과 같습니다:
- Mimi speech encoder (ConvNet + Transformer): 사용자 오디오를 토큰(tokens)으로 변환합니다.
- Temporal and depth transformers: 변환된 오디오 토큰,
text prompt및voice prompt를 공동으로 처리하여 대화의 맥락과 페르소나를 모델링합니다. 이 트랜스포머들은 대화의 내용과 비언어적 측면(예: 대화 전환, 끼어들기 시점)을 통합하여 처리합니다. - Mimi speech decoder (Transformer + ConvNet): 트랜스포머의 출력을 기반으로 에이전트의 응답 음성을 24kHz 샘플 레이트(sample rate)로 생성합니다.
Helium이 사용되어 의미론적 이해와 훈련 데이터 분포 외의 시나리오로의 일반화(generalization)를 가능하게 합니다.훈련 데이터(Training Data):
광범위한 주제와 감정, 다양한 비언어적 행동(끼어들기, 백채널, 일시 정지)을 포함하는 대화형 음성 데이터의 부족이 주요 과제였습니다. 이를 해결하기 위해 두 가지 유형의 데이터를 사용합니다:
- 실제 대화(Real conversations):
Fisher English corpus의 7,303개 실제 대화(1,217시간)를 사용합니다. 이 대화들은 GPT-OSS-120B를 사용하여 역으로 프롬프트(prompts)가 주석으로 추가(back-annotated)되어 다양한 수준의 세부 정보를 포함합니다. 이는 자연스러운 백채널링, 표현, 감정적 반응을 학습하는 데 기여합니다. - 합성 대화(Synthetic conversations):
- Assistant role: 39,322개 대화(410시간)는 Qwen3-32B 및 GPT-OSS-120B로 대화 스크립트(scripts)를 생성하고 Chatterbox TTS로 음성을 합성합니다. "You are a wise and friendly teacher. Answer questions or provide advice in a clear and engaging way."와 같은 고정된
text prompt가 사용됩니다. - Customer service roles: 105,410개 대화(1,840시간)도 동일한 방식으로 생성됩니다. 이 시나리오에서는 조직 이름, 역할 유형, 에이전트 이름, 추가 맥락(가격, 시간 등)과 같은 모든 관련 정보를 포함하는 상세한
text prompt가 제공됩니다.
- Assistant role: 39,322개 대화(410시간)는 Qwen3-32B 및 GPT-OSS-120B로 대화 스크립트(scripts)를 생성하고 Chatterbox TTS로 음성을 합성합니다. "You are a wise and friendly teacher. Answer questions or provide advice in a clear and engaging way."와 같은 고정된
hybrid prompt 형식과 voice conditioning을 통해 두 데이터 소스의 장점을 결합하여 모델이 작업 지식과 자연스러운 상호작용 패턴을 분리하고 결합할 수 있도록 합니다.주요 발견(Key Findings):
- 사전 훈련된 기초 모델로부터의 효율적인 특화: Moshi의 사전 훈련된 가중치(weights)를 기반으로 5,000시간 미만의 특정 데이터만으로도 작업 수행 능력을 확보할 수 있었습니다.
- 음성 자연성(speech naturalness)과 작업 충실성(task-adherence)의 분리: 합성 데이터는 다양한 페르소나와 맥락을 커버하지만 음성 합성은 실제 녹음의 행동적 풍부함을 보여주지 못했습니다. 반면 Fisher 코퍼스(corpus)의 실제 대화는 음성 패턴의 다양성을 제공했습니다. PersonaPlex는 Fisher의 음성 패턴과 합성 데이터의 작업 충실성을 결합합니다.
- 훈련 영역을 넘어서는 일반화: 모델은 훈련 데이터에 없던 기술적 위기 관리 어휘, 적절한 감정적 긴급성, 도메인 특화 추론(예: 우주선 원자로 문제)을 처리하는 능력을 보여주며, 이는 Moshi의 언어 모델인
Helium의 광범위한 사전 훈련 코퍼스에서 비롯된 것으로 추정됩니다.
평가(Evaluation):
PersonaPlex는 FullDuplexBench 및 ServiceDuplexBench (고객 서비스 시나리오를 확장한 벤치마크)에서 대화 역동성(매끄러운 턴-테이킹, 사용자 끼어들기, 일시 정지 처리), 응답 및 끼어들기 지연 시간, 그리고 작업 충실성(task adherence) 면에서 다른 오픈 소스 및 상업 시스템들을 능가합니다. 평가에는 GPT-4o가 심판(judge)으로 사용됩니다.