Service
GitHub - jamiepine/voicebox: The open-source voice synthesis studio powered by Qwen3-TTS.
jamiepine
2026.02.23
·GitHub·by 이호민#AI#Open Source#TTS#Voice Cloning#Voice Synthesis
핵심 포인트
- 1Voicebox는 ElevenLabs와 같은 클라우드 서비스의 대안으로 설계된 오픈소스 로컬 우선 음성 합성 스튜디오이며, 사용자가 자신의 기기에서 직접 음성을 복제하고 생성할 수 있도록 합니다.
- 2Qwen3-TTS 기반의 고품질 음성 클로닝, 멀티트랙 타임라인 에디터, 그리고 API를 제공하며, Apple Silicon에서는 MLX를 활용하여 4-5배 빠른 추론 속도를 자랑합니다.
- 3Tauri, FastAPI, Qwen3-TTS 및 Whisper 모델로 구축된 Voicebox는 완전한 개인 정보 보호와 로컬 제어를 강조하며, 실시간 합성 및 다양한 모델 지원으로 기능을 확장할 계획입니다.
Voicebox는 Qwen3-TTS를 기반으로 하는 오픈소스 음성 합성 스튜디오입니다. 이 프로젝트는 ElevenLabs와 같은 클라우드 서비스의 로컬-퍼스트(local-first) 대안을 목표로 하며, 모든 음성 데이터와 모델이 사용자의 기기 내에 유지되어 완전한 프라이버시를 보장합니다.
핵심 방법론 및 기술 스택:
Voicebox의 핵심 기능은 강력한 기술 스택과 아키텍처를 통해 구현됩니다.
- 음성 합성 (Voice Synthesis):
- Qwen3-TTS (Qwen3-Text-to-Speech): Alibaba에서 개발한 획기적인 모델을 사용하여 음성 복제(voice cloning)를 수행합니다. 이 모델은 단 몇 초의 오디오 샘플만으로도 높은 충실도의 음성 프로필을 생성하며, 자연스러운 운율, 감정, 어조를 유지합니다. 영어, 중국어 등 다국어를 지원합니다.
- 추론 엔진 (Inference Engine):
- Apple Silicon (M1/M2/M3) 환경에서는 Apple의 MLX 프레임워크를 활용하여 네이티브 Metal 가속을 통해 4-5배 빠른 추론 속도를 제공합니다. MLX는 Apple Silicon의 Neural Engine을 직접 활용하여 최적의 성능을 끌어냅니다.
- Windows/Linux 및 Intel 기반 Mac에서는 PyTorch 백엔드를 사용합니다. CUDA GPU가 권장되지만, CPU도 지원됩니다(CPU는 속도가 느림).
- 음성 프로필 관리 (Voice Profile Management): 사용자가 오디오 파일로부터 프로필을 생성하거나 앱 내에서 직접 녹음할 수 있습니다. 여러 샘플을 결합하여 더 높은 품질의 복제본을 만들고, 프로필을 가져오기/내보내기하거나 설명 및 언어 태그로 정리할 수 있습니다.
- 텍스트-음성 변환 (Text-to-Speech): 복제된 음성 프로필을 기반으로 텍스트를 음성으로 변환하며, 장문 콘텐츠를 위한 일괄 생성(batch generation)과 음성 프롬프트 캐싱을 통한 스마트 캐싱 기능을 제공합니다.
- 애플리케이션 아키텍처:
- 데스크톱 애플리케이션: Rust 기반의 Tauri 프레임워크를 사용하여 개발되어, Electron 기반 앱보다 번들 크기가 10배 작고, 네이티브 성능과 낮은 메모리 사용량을 자랑합니다.
- 프론트엔드 (Frontend): React, TypeScript, Tailwind CSS를 사용하여 사용자 인터페이스를 구축하며, 상태 관리는 Zustand, 데이터 페칭은 React Query를 통해 이루어집니다.
- 백엔드 (Backend): Python 기반의 FastAPI를 사용하여 RESTful API를 제공합니다. FastAPI는 비동기 Python을 지원하며 OpenAPI 스키마를 자동으로 생성하여 타입-세이프(type-safe)한 엔드-투-엔드(end-to-end) 개발을 가능하게 합니다.
- 데이터베이스: SQLite를 사용하여 로컬 데이터를 저장하고 관리합니다.
- 음성 처리 컴포넌트:
- 전사 (Transcription): OpenAI의 Whisper 모델(PyTorch 또는 MLX 기반)을 사용하여 녹음된 오디오를 자동으로 텍스트로 변환합니다.
- 오디오 웨이브폼 시각화 및 편집: WaveSurfer.js와 librosa 라이브러리를 활용하여 타임라인 편집기에서 오디오 웨이브폼을 시각화하고 인라인 트리밍 및 분할과 같은 편집 기능을 제공합니다.
- 주요 기능 및 편집 도구:
- Stories Editor: 타임라인 기반의 편집기로, 여러 음성 트랙을 단일 프로젝트에 배치하고, 클립을 직접 트리밍/분할하며, 자동 재생 및 여러 참여자가 있는 대화를 구성하는 음성 믹싱(voice mixing) 기능을 제공합니다.
- 녹음 및 전사: 앱 내 녹음 기능과 파형 시각화, macOS 및 Windows에서 시스템 오디오 캡처, Whisper를 통한 자동 전사 기능을 포함합니다.
- 유연한 배포: 모든 기능이 로컬에서 실행되는 "Local mode", 네트워크 상의 GPU 서버에 연결하는 "Remote mode", 그리고 모든 머신을 Voicebox 서버로 변환하는 "One-click server"를 지원합니다.
- REST API:
localhost:8000에서 사용 가능한 REST API를 통해 외부 애플리케이션과 음성 합성을 통합할 수 있습니다. 이를 통해 게임 대화 시스템, 팟캐스트/비디오 제작 파이프라인, 접근성 도구, 음성 비서 등 다양한 활용 사례를 지원합니다.
Voicebox는 로컬에서 전문적인 음성 합성 및 편집 기능을 제공하며, 향후 실시간 합성, 대화 모드, 음성 효과, 더 많은 모델(XTTS, Bark 등) 지원, 음성 디자인(text-to-voice design), 플러그인 아키텍처 등으로 확장될 계획입니다.