GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.
핵심 포인트
- 1Qwen3-ASR은 52개 언어 및 방언에 대한 언어 식별과 ASR을 지원하는 Qwen3-ASR-1.7B 및 Qwen3-ASR-0.6B 모델, 그리고 11개 언어에서 Text-Speech 정렬을 수행하는 Qwen3-ForcedAligner-0.6B 모델로 구성된 포괄적인 Speech Recognition 모델 패밀리입니다.
- 2이 모델들은 Qwen3-Omni를 기반으로 대규모 음성 데이터를 학습하여 복잡한 환경에서도 고품질의 견고한 인식을 제공하며, ASR 모델은 스트리밍/오프라인 통합 추론을 지원하고 ForcedAligner는 단어 및 문자 수준의 정확한 Timestamp 예측 기능을 제공합니다.
- 3평가 결과, Qwen3-ASR-1.7B는 오픈소스 ASR 모델 중 최첨단 성능을 달성하여 상용 API와 경쟁하며, Qwen3-ForcedAligner-0.6B는 Timestamp 정확도 면에서 기존 E2E 기반 정렬 모델들을 능가하는 것으로 나타났습니다.
QwenLM에서 개발한 Qwen3-ASR은 52개 언어 및 방언에 대한 언어 식별(Language Identification, LID) 및 자동 음성 인식(Automatic Speech Recognition, ASR)을 지원하는 강력한 all-in-one Speech Recognition 모델 패밀리입니다. 이 패밀리는 두 가지 주요 모델인 Qwen3-ASR-1.7B와 Qwen3-ASR-0.6B로 구성되며, 또한 11개 언어로 텍스트-음성 쌍을 정렬할 수 있는 새로운 non-autoregressive Speech Forced-Alignment 모델인 Qwen3-ForcedAligner-0.6B를 함께 제공합니다.
핵심 방법론 및 기술적 특징:
- Foundation Model 기반: Qwen3-ASR 모델들은 Qwen3-Omni라는 강력한 foundation model의 오디오 이해 능력을 활용하여 대규모 음성 학습 데이터로 훈련되었습니다. 이는 일반적인 대규모 언어 모델(Large Language Model, LLM)의 아키텍처와 유사하게, Transformer 기반의 인코더-디코더 구조를 채택하여 음성 특징(acoustic features)을 토큰 시퀀스로 변환하고 이를 다시 텍스트 토큰 시퀀스로 디코딩하는 방식을 따르는 것으로 추정됩니다. 이러한 대규모 모델은 다양한 음향 환경과 텍스트 패턴에서도 robust하고 고품질의 인식을 제공합니다.
- All-in-one 및 Multilingual/Multidialectal 지원: Qwen3-ASR-1.7B 및 0.6B 모델은 30개 언어(예: Chinese, English, Cantonese, Arabic, German, French, Spanish 등)와 22개 중국 방언 및 다양한 영어 악센트를 지원합니다. 단일 모델 내에서 언어 식별과 ASR 기능을 통합하여, 입력 오디오의 언어를 자동으로 감지하고 해당 언어로 ASR을 수행할 수 있습니다. 이는 모델이 다국어 음성 데이터를 인코딩하여 공통의 latent space를 학습하고, 특정 언어에 대한 decoding path를 유연하게 적용할 수 있도록 설계되었음을 시사합니다.
- Unified Inference (Offline / Streaming): Qwen3-ASR 모델은 동일한 모델로 offline 처리(전체 오디오 파일)와 streaming 처리(실시간 오디오 스트림)를 모두 지원합니다. 스트리밍 모드에서는 일반적으로 오디오를 작은 청크(chunk) 단위로 나누어 실시간으로 처리하며, 각 청크의 인코딩된 features를 이전 청크의 context와 결합하여 연속적인 transcription을 생성합니다. 이는 모델의 architecture가 long-context processing과 low-latency inference에 최적화되어 있음을 의미합니다.
- Non-Autoregressive Forced Alignment: Qwen3-ForcedAligner-0.6B는 단어 또는 문자의 정확한 타임스탬프(timestamp)를 예측하기 위한 non-autoregressive 모델입니다. 전통적인 autoregressive 모델과 달리, non-autoregressive 모델은 한 번에 모든 출력(예: 각 토큰의 시작 및 끝 시간)을 병렬로 예측하므로 inference 속도가 훨씬 빠릅니다. 이는 주어진 텍스트와 오디오 간의 alignment를 학습하는 방식으로, 오디오의 음향 특징과 텍스트의 토큰 시퀀스 사이의 log-likelihood를 최대화하는 path를 찾아 타임스탬프를 결정합니다. 평가 결과, 기존의 E2E 기반 forced-alignment 모델들을 능가하는 정확도(AAS, Average Alignment Score: 42.9ms for Raw Labeled data, 52.9ms for Concat-300s Labeled data)를 보입니다.
- 성능 최적화:
- vLLM Backend: 최상의 inference 속도를 위해 vLLM backend를 지원합니다. vLLM은 large language models를 위한 고성능 serving library로, dynamic batching, PagedAttention 등을 통해 GPU 활용 효율을 극대화하여 처리량을 향상시키고 latency를 줄입니다.
- FlashAttention 2: GPU 메모리 사용량을 줄이고 특히 긴 입력 및 큰 batch size에 대한 inference 속도를 가속화하기 위해 FlashAttention 2 사용을 권장합니다. 이는 self-attention 메커니즘에서 발생하는 메모리 접근 병목 현상을 줄여 계산 효율성을 높이는 기법입니다.
- 데이터 타입:
torch.bfloat16데이터 타입을 사용하여 모델을 로드함으로써 메모리 사용량을 줄이고 연산 속도를 높이면서도float32에 가까운 정확도를 유지합니다.
평가 결과:
Qwen3-ASR-1.7B 모델은 공개 벤치마크(Librispeech, GigaSpeech, WenetSpeech, AISHELL-2 등) 및 내부 벤치마크에서 기존의 open-source ASR 모델들을 능가하며, GPT-4o Transcribe, Gemini-2.5 Pro와 같은 상용 API와도 경쟁할 수 있는 state-of-the-art 성능을 보여줍니다. 특히, 중국어 방언 및 악센트 영어 인식, 노래 및 배경 음악이 있는 노래(Singing Voice & Song Transcription)에서도 우수한 성능을 나타냅니다. 언어 식별 정확도 또한 평균 97.9%로 매우 높게 측정되었습니다.