GitHub - QwenLM/Qwen3.5: Qwen3.5 is the large language model series developed by Qwen team, Alibaba Cloud.
핵심 포인트
- 1Qwen3.5는 Alibaba Cloud에서 개발한 새로운 대규모 언어 모델 시리즈로, Multimodal 학습, 아키텍처 효율성 및 강화 학습 분야에서 상당한 발전을 이루었습니다.
- 2이 모델은 Unified Vision-Language Foundation, Gated Delta Networks 및 sparse Mixture-of-Experts (MoE)를 통합한 효율적인 하이브리드 아키텍처, 그리고 201개 언어 지원을 특징으로 합니다.
- 3Qwen3.5는 397B-A17B MoE 모델을 포함하여 Hugging Face Hub 및 ModelScope를 통해 제공되며, 다양한 공식 플랫폼과 Transformers, SGLang, vLLM 같은 광범위한 배포 및 Finetuning 옵션을 지원합니다.
Qwen 팀이 개발하고 Alibaba Cloud에서 제공하는 대규모 언어 모델 시리즈인 Qwen3.5는 유틸리티와 성능을 향상시키는 데 중점을 둔 혁신적인 기반 모델입니다. 이 모델은 멀티모달 학습, 아키텍처 효율성, 강화 학습 확장성 및 전역적 접근성을 통합하여 개발자와 기업에 강력한 기능을 제공합니다.
Qwen3.5는 다음과 같은 주요 향상점을 특징으로 합니다:
- 통합 비전-언어 파운데이션 (Unified Vision-Language Foundation): 수 조(trillions) 개의 멀티모달 토큰에 대한 초기 융합(early fusion) 학습을 통해 Qwen3와 동등한 세대 간 성능을 달성하며, 추론, 코딩, 에이전트, 시각적 이해 벤치마크에서 Qwen3-VL 모델을 능가합니다. 이는 텍스트와 비전 데이터를 함께 학습하여 강력한 멀티모달 이해 능력을 구축했음을 시사합니다.
- 효율적인 하이브리드 아키텍처 (Efficient Hybrid Architecture): Gated Delta Networks와 희소 전문가 혼합(sparse Mixture-of-Experts, MoE)을 결합하여 최소한의 지연 시간과 비용 오버헤드로 높은 처리량(high-throughput) 추론을 제공합니다. MoE 아키텍처는 모델의 일부만 활성화하여 계산 효율성을 높이는 반면, Gated Delta Networks는 특정 가중치 업데이트에 대한 게이팅(gating) 메커니즘을 통해 모델의 표현력을 향상시킬 수 있습니다.
- 확장 가능한 강화 학습 일반화 (Scalable RL Generalization): 백만 개(million) 이상의 에이전트 환경에서 점진적으로 복잡한 작업 분포를 가진 강화 학습을 확장하여 강력한 실제 환경 적응력을 제공합니다. 이는 실제 시나리오에서 모델의 견고성과 유연성을 보장하기 위한 대규모 RL 훈련 과정을 의미합니다.
- 전역 언어 지원 (Global Linguistic Coverage): 201개 언어 및 방언으로 지원이 확장되어 미묘한 문화 및 지역적 이해를 바탕으로 포괄적인 전 세계 배포가 가능합니다. 이는 모델의 광범위한 언어 데이터 학습을 나타냅니다.
- 차세대 훈련 인프라 (Next-Generation Training Infrastructure): 텍스트 전용 훈련 대비 거의 100%에 달하는 멀티모달 훈련 효율성과 대규모 에이전트 스캐폴드 및 환경 오케스트레이션을 지원하는 비동기식 강화 학습(asynchronous RL) 프레임워크를 갖추고 있습니다. 이는 훈련 과정의 최적화와 효율성을 강조합니다.
Qwen3.5의 첫 번째 릴리스는 397B-A17B MoE 모델을 포함하며, Hugging Face Hub와 ModelScope를 통해 공식 모델 가중치를 이용할 수 있습니다. 사용자는 공식 Qwen Chat, Qwen API, Qwen Code, Qwen Agent와 같은 플랫폼을 통해 Qwen3.5를 경험할 수 있습니다. 또한 transformers, llama.cpp, MLX와 같은 라이브러리를 사용하여 로컬에서 모델을 실행하거나, SGLang 및 vLLM과 같은 프레임워크를 통해 OpenAI-호환 API를 사용하여 배포할 수 있습니다. 특히, SGLang 및 vLLM을 통한 배포 시 --context-length 262144 또는 --max-model-len 262144와 같이 262,144 토큰에 달하는 매우 긴 컨텍스트 길이를 지원합니다. 모델은 Apache 2.0 라이선스 하에 배포됩니다.