News
#vllm #llm #ai #opensource | vLLM
vLLM
2026.01.21
·LinkedIn·by 이호민#vLLM#LLM#AI#OpenSource
핵심 포인트
- 1vLLM v0.14.0이 기본 비동기 스케줄링 및 PyTorch 2.9.1 요구사항과 같은 Breaking Changes를 포함하여 출시되었습니다.
- 2주요 개선사항으로는 OOM을 방지하는 `--max-model-len auto` 기능과 고성능 gRPC server entrypoint가 추가되었으며, Grok-2 및 LFM2-VL 등 다양한 신규 모델 아키텍처를 지원합니다.
- 3CUTLASS MoE 최적화를 통해 Throughput과 TTFT 성능이 향상되었고, SM103 및 B300 Blackwell과 같은 최신 하드웨어 지원이 강화되었습니다.
vLLM이 251명의 기여자(이 중 86명은 신규 기여자)로부터 660건의 커밋을 반영하여 v0.14.0 버전을 출시했습니다. 이번 업데이트에는 주요 변경 사항 및 개선 사항이 포함되어 있어 업그레이드 전 확인이 필요합니다.
주요 Breaking Changes:
- Async scheduling의 기본화: 비동기 스케줄링이 이제 기본 설정으로 활성화됩니다. 필요 시
--no-async-scheduling옵션을 사용하여 비활성화할 수 있습니다. - PyTorch 2.9.1 요구: vLLM v0.14.0은 PyTorch 2.9.1 버전을 필수로 요구하며, 기본 wheel은 cu129에 맞춰 컴파일되었습니다.
- Deprecated된 양자화 스키마 제거: 이전에 사용 중단된 양자화(quantization) 방식들이 이번 버전에서 완전히 제거되었습니다.
- Speculative decoding 동작 변경: Speculative decoding 사용 시 지원되지 않는 샘플링(sampling) 파라미터가 감지되면, 더 이상 이를 묵묵히 무시하지 않고 명시적으로 오류(fail)를 발생시킵니다.
주요 개선 사항 (Key Improvements):
- gRPC 서버 진입점(
--grpc-server-entrypoint): (#30190) 고처리량(high-throughput) 서빙을 위해 바이너리 프로토콜과 HTTP/2 다중화(multiplexing)를 지원하는 gRPC 서버 진입점이 추가되었습니다. 이는 대규모 서비스 환경에서 효율적인 통신을 가능하게 합니다. --max-model-len auto기능: (#29431) 이 새로운 옵션은 사용 가능한 GPU memory에 맞춰 컨텍스트 길이(context length)를 자동으로 조정합니다. 이를 통해 시작 시 발생하는 OOM(Out Of Memory) 오류를 방지하고, 사용자가 직접 최적의max-model-len값을 찾아야 하는 번거로움을 줄여줍니다.- 모델 검사 뷰(Model inspection view): (#29450) 환경 변수를 설정하거나 LLM 객체를 출력하면, 현재 로드된 모델의 모듈, 어텐션 백엔드(attention backends), 양자화 설정 등을 상세하게 확인할 수 있는 기능이 추가되었습니다.
모델 지원 (Model Support):
- 새로운 아키텍처 지원: Grok-2 (tiktoken 토크나이저 포함), LFM2-VL (vision-language 모델), MiMo-V2-Flash, GLM-ASR (오디오 모델), K-EXAONE-236B-A23B MoE 등 다양한 신규 모델 아키텍처에 대한 지원이 추가되었습니다.
- LoRA 지원 확장: MoE LoRA가 이제 LLaVA, BLIP2, PaliGemma, Pixtral 등과 같은 멀티모달(multimodal) 모델의 타워/커넥터(tower/connector)를 지원하여, LoRA를 통한 미세 조정(fine-tuning) 유연성을 높였습니다.
성능 향상 (Performance):
- CUTLASS MoE 최적화:
fill(0)최적화를 통해 CUTLASS 기반 MoE(Mixture of Experts) 모델의 성능이 향상되었습니다. 이는 처리량(throughput) 2.9% 증가와 TTFT(Time To First Token) 10.8% 개선으로 이어져, MoE 모델의 응답성과 효율성을 크게 높였습니다. - 하드웨어 업데이트 지원: SM103 하드웨어 지원이 추가되었으며, B300 Blackwell MoE 설정을 지원합니다. 또한, Marlin이 Turing (sm75) 아키텍처에 대한 지원을 확장하여, 더 넓은 범위의 GPU에서 최적화된 성능을 제공합니다.
- 대규모 서빙 최적화: XBO(Extended Dual-Batch Overlap)와 NIXL asymmetric TP(Tensor Parallelism)와 같은 기술을 도입하여 대규모 모델 서빙 환경에서의 효율성과 처리량을 극대화했습니다.