Service

GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.

QwenLM

2026.03.11

·GitHub·by 이호민

#Alibaba Cloud#ASR#Multilingual#Qwen#Speech Recognition

핵심 포인트

1Qwen3-ASR은 52개 언어 및 방언에 대한 언어 식별과 ASR을 지원하는 Qwen3-ASR-1.7B 및 Qwen3-ASR-0.6B 모델, 그리고 11개 언어에서 Text-Speech 정렬을 수행하는 Qwen3-ForcedAligner-0.6B 모델로 구성된 포괄적인 Speech Recognition 모델 패밀리입니다.
2이 모델들은 Qwen3-Omni를 기반으로 대규모 음성 데이터를 학습하여 복잡한 환경에서도 고품질의 견고한 인식을 제공하며, ASR 모델은 스트리밍/오프라인 통합 추론을 지원하고 ForcedAligner는 단어 및 문자 수준의 정확한 Timestamp 예측 기능을 제공합니다.
3평가 결과, Qwen3-ASR-1.7B는 오픈소스 ASR 모델 중 최첨단 성능을 달성하여 상용 API와 경쟁하며, Qwen3-ForcedAligner-0.6B는 Timestamp 정확도 면에서 기존 E2E 기반 정렬 모델들을 능가하는 것으로 나타났습니다.

Service

QwenLM

2026.03.11

·GitHub·by 이호민

#Alibaba Cloud#ASR#Multilingual#Qwen#Speech Recognition

1Qwen3-ASR은 52개 언어 및 방언에 대한 언어 식별과 ASR을 지원하는 Qwen3-ASR-1.7B 및 Qwen3-ASR-0.6B 모델, 그리고 11개 언어에서 Text-Speech 정렬을 수행하는 Qwen3-ForcedAligner-0.6B 모델로 구성된 포괄적인 Speech Recognition 모델 패밀리입니다.
2이 모델들은 Qwen3-Omni를 기반으로 대규모 음성 데이터를 학습하여 복잡한 환경에서도 고품질의 견고한 인식을 제공하며, ASR 모델은 스트리밍/오프라인 통합 추론을 지원하고 ForcedAligner는 단어 및 문자 수준의 정확한 Timestamp 예측 기능을 제공합니다.
3평가 결과, Qwen3-ASR-1.7B는 오픈소스 ASR 모델 중 최첨단 성능을 달성하여 상용 API와 경쟁하며, Qwen3-ForcedAligner-0.6B는 Timestamp 정확도 면에서 기존 E2E 기반 정렬 모델들을 능가하는 것으로 나타났습니다.