mlx-community/chatterbox-turbo-fp16 · Hugging Face

요약

️ mlx-community/chatterbox-turbo-fp16 모델은 ResembleAI의 Chatterbox Turbo를 MLX 형식으로 변환한 Text-to-Speech 모델입니다.

️ 이 모델은 레퍼런스 오디오를 통한 음성 클로닝 기능을 지원하며, 텍스트에 [chuckle]과 같은 표현 태그를 삽입하여 감정 표현을 제어할 수 있습니다.

해당 모델은 mlx-audio 라이브러리를 사용하여 음성 생성에 활용될 수 있으며, 다양한 음성 합성 기능을 제공합니다.

상세 내용

mlx-community/chatterbox-turbo-fp16 모델은 ResembleAI/chatterbox-turbo 모델을 MLX format으로 변환한 Text-to-Speech (TTS) 모델입니다. 이 변환은 mlx-audio 라이브러리 버전 0.2.8을 사용하여 이루어졌습니다.

이 모델의 핵심 기능은 텍스트를 음성으로 합성하는 것이며, 특히 두 가지 주요 특징을 제공합니다:

Voice Cloning: 사용자가 제공하는 참조 오디오 (ref_audio)의 음성 특성을 복제하여 입력 텍스트를 해당 목소리로 발화할 수 있습니다. 이는 특정인의 목소리로 새로운 텍스트를 생성하는 데 활용됩니다. 사용 방법은 mlx_audio.tts.generate --model mlx-community/chatterbox-turbo-fp16 --text "..." --ref_audio path_to_file.wav --play와 같습니다.

Emotion Control: Chatterbox는 텍스트 내에 직접 삽입할 수 있는 expressive event tags를 지원하여 음성에 자연스러운 감정 표현을 추가할 수 있도록 합니다. 예를 들어, [clear throat], [sigh], [shush], [cough], [groan], [sniff], [gasp], [chuckle], [laugh]와 같은 태그들을 텍스트에 포함시키면, 합성된 음성에서 해당 감정이나 소리 표현이 나타납니다.

mlx_audio.tts.generate --model mlx-community/chatterbox-turbo-fp16 --text "[sigh] I can't believe it's Monday again. [groan] But hey, [clear throat] let's make the best of it!" --play

와 같이 사용할 수 있습니다.

참조 오디오를 지정하지 않으면 모델은 기본 목소리로 텍스트를 발화합니다. 이 모델은 mlx-audio 라이브러리를 통해 사용할 수 있으며, pip install -U mlx-audio 명령어로 설치할 수 있습니다. 모델의 더 상세한 기술적 방법론에 대한 정보는 원본 ResembleAI/chatterbox-turbo 모델 카드에서 찾아볼 수 있습니다.

#text-to-speech #voice cloning #mlx #tts #audio generation