GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Heterogeneous LLM Inference/Fine-tune Optimizations
요약
상세 내용
kt-kernel과 kt-sft 두 가지 핵심 모듈로 구성되어 있습니다.kt-kernel은 고성능 추론 커널(High-Performance Inference Kernels)을 담당합니다. 이 모듈은 이종 LLM 추론을 위한 CPU 최적화 커널 연산에 중점을 둡니다. 주요 특징으로는 Intel AMX 및 AVX512/AVX2에 최적화된 커널을 활용하여 INT4/INT8 양자화된 추론을 가속화하는 AMX/AVX 가속(Acceleration)이 있습니다. 또한, NUMA-aware 메모리 관리를 통해 Mixture-of-Experts (MoE) 모델의 효율적인 추론을 지원하며, GPU에 핫(hot) 전문가를, CPU에 콜드(cold) 전문가를 배치하는 이종 전문가 배치(heterogeneous expert placement)를 가능하게 합니다. 양자화 지원 측면에서는 CPU 측 INT4/INT8 양자화 가중치와 GPU 측 GPTQ를 지원합니다. SGLang 및 기타 프레임워크와의 쉬운 통합을 위해 깔끔한 Python API를 제공하여 유용성을 높였습니다. 사용 사례로는 대규모 MoE 모델을 위한 CPU-GPU 하이브리드 추론과 생산 서비스(production serving)를 위한 SGLang 통합이 있습니다. 예를 들어, DeepSeek-R1-0528 (FP8) 모델은 8개의 L20 GPU와 Xeon Gold 6454S 구성에서 총 처리량(Total Throughput) 227.85 tokens/s, 8-way concurrency에서 출력 처리량(Output Throughput) 87.58 tokens/s를 달성했습니다.
kt-sft는 미세 조정 프레임워크(Fine-Tuning Framework)입니다. 이 모듈은 KTransformers와 LLaMA-Factory의 통합을 통해 초고대 MoE 모델의 미세 조정을 지원합니다. 자원 효율성(Resource Efficient)이 뛰어나 671B DeepSeek-V3 모델을 단 70GB의 GPU 메모리와 1.3TB의 RAM만으로 미세 조정할 수 있습니다. LoRA(Low-Rank Adaptation) 지원을 통해 이종 가속(heterogeneous acceleration)과 함께 전체 LoRA 미세 조정을 가능하게 합니다. LLaMA-Factory와의 원활한 통합을 제공하며, 채팅(Chat), 배치 추론(batch inference), 측정 지표 평가(metrics evaluation) 등 생산 준비(Production Ready) 기능을 갖추고 있습니다. 성능 예시로, DeepSeek-V3 (671B) 모델은 LoRA와 AMX를 사용하여 약 40 tokens/s의 처리량을 보였으며, 이는 멀티 GPU 환경에서 70GB의 GPU 메모리를 사용했습니다. DeepSeek-V2-Lite (14B) 모델은 LoRA와 AMX를 통해 약 530 tokens/s의 처리량을 달성했으며, 이는 6GB의 GPU 메모리로 가능했습니다.
KTransformers는 Tsinghua University의 MADSys Lab과 Approaching.AI, 그리고 9#AISoft 커뮤니티 기여자들에 의해 개발 및 유지보수되고 있습니다. 연구에 KTransformers를 사용할 경우, "KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models"라는 제목의 논문을 인용할 것을 요청하고 있습니다.