
KVzap: Fast, Adaptive, and Faithful KV Cache Pruning
핵심 포인트
- 1기존 KV 캐시 pruning 방법들의 속도 및 적용 한계를 극복하기 위해, 본 논문은 KVzip을 빠르고 적응적으로 근사하는 KVzap을 제안합니다.
- 2KVzap은 모델의 hidden state로부터 중요도 점수를 예측하도록 학습된 경량 surrogate model(linear layer 또는 MLP)을 사용하여, 임계값 𝜏 이하의 KV 쌍을 제거함으로써 캐시를 압축합니다.
- 3Qwen3-8B, Llama-3.1-8B-Instruct, Qwen3-32B 모델에서 다양한 long-context 및 reasoning task 전반에 걸쳐 KVzap은 2–4배의 KV 캐시 압축률을 달성하면서도 정확도 손실을 무시할 수 있는 수준으로 유지하며, SOTA 성능을 보여줍니다.
KVzap은 transformer 기반 LLM 추론에서 주요 병목인 KV 캐시의 메모리 사용량과 처리량을 줄이기 위한 빠르고 적응적이며 신뢰성 있는(faithful) pruning 방법론입니다. 기존 KV 캐시 pruning 연구는 속도-정확도 trade-off와 실제 시스템 통합의 어려움으로 인해 널리 채택되지 못했습니다. 특히, 현재까지 가장 좋은 성능을 보이는 KVzip(Kim et al., 2025)은 prefilling 단계에서 입력 프롬프트의 두 배 길이에 해당하는 context를 두 번 처리해야 하는 비효율성과 decoding 단계에서의 사용 불가라는 한계가 있었습니다. KVzap은 이러한 KVzip의 단점을 극복하면서도 유사하거나 더 나은 성능을 달성합니다.
1. KVzip 및 KVzip+ (Core Methodology Detail)
KVzap은 KVzip의 향상된 버전을 근사하는 방식으로 작동합니다.
- KVzip:
여기서 는 position 의 KV pair 점수이고, 는 반복되는 의 position 에서 원본 의 position 로 향하는 attention weight입니다. 이 점수가 낮으면 해당 KV pair가 정보를 거의 담고 있지 않으므로 제거할 수 있다는 가정에 기반합니다.
- KVzip+:
이 정규화는 단순히 attention weight가 높은 것뿐만 아니라, 해당 value vector가 실제 hidden state에 미치는 영향력을 고려하여 보다 정확한 중요도를 반영합니다.
2. KVzap의 작동 방식
KVzap은 KVzip의 느린 속도와 decoding 단계 사용 불가라는 한계를 해결하기 위해, KVzip+의 score 를 직접적으로 예측하는 경량 surrogate 모델을 학습시킵니다.
- Surrogate Model 학습:
- KVzap-Linear: 단일 linear layer로 구성됩니다.
- KVzap-MLP: 두 개의 linear layer와 GELU activation으로 구성된 MLP입니다. 중간 hidden layer의 크기는 입니다.
- Pruning 정책 (Thresholding):
- Sliding Window:
- Algorithm (Pseudocode):
def compress(hidden_states, keys, values, kvzap_model, threshold, window=128):
scores = kvzap_model(hidden_states)
scores[..., -window:] = float("inf") # 최근 w개 토큰은 무한대 점수를 부여하여 항상 유지
indices = torch.where(scores >= threshold) # threshold 이상인 KV pair의 인덱스 추출
return keys[indices], values[indices] # 해당 KV pair만 반환3. 실험 및 결과
KVzap은 Qwen3-8B, Llama-3.1-8B-Instruct, Qwen3-32B 모델을 대상으로 RULER(long-context), LongBench(long-context), AIME25(reasoning) 벤치마크에서 평가되었습니다.
- KVzap 학습 결과:
- 성능:
- RULER 4k: KVzap은 Qwen3-8B 및 Llama-3.1-8B-Instruct에서 3–4배 압축률까지 거의 완벽한 정확도를 유지하며 SOTA 성능을 달성했습니다. KVzip+가 KVzip과 동등하거나 더 나은 성능을 보여 KVzip+의 유효성을 검증했습니다.
- LongBench: KVzap 모델들은 2–3배 압축률까지 거의 완벽한 정확도를 유지했습니다. RULER보다 낮은 압축률을 보였는데, 이는 RULER가 합성적이고 반복적인 데이터인 반면 LongBench는 실제 데이터로 정보 밀도가 높기 때문으로 분석됩니다.
- AIME25 (Reasoning): KVzap-MLP는 2배를 초과하는 압축률에서도 견고한 추론 성능을 유지했습니다.
- Adaptive Compression: KVzap의 thresholding 방식은 벤치마크마다 다른 최적 압축률을 자동으로 달성하며, 평균 2.7–3.5배의 KV 캐시 압축을 이루면서도 정확도 저하가 미미했습니다.
- 오버헤드:
4. 결론
KVzap은 경량 surrogate 모델을 통해 KVzip+의 score를 예측하고, 이를 바탕으로 KV 캐시를 pruning하는 혁신적인 방법론입니다. 이러한 접근 방식은 KVzip의 단점을 해결하여 빠른 속도와 decoding 단계에서의 사용을 가능하게 합니다. Qwen3 및 Llama 모델에 대한 광범위한 실험을 통해, KVzap은 2-4배의 KV 캐시 압축을 달성하면서도 정확도 손실이 거의 없음을 입증했습니다. 특히, input-adaptive thresholding과 sliding window 정책은 실제 사용 환경에서 높은 유연성과 견고성을 제공합니다. KVzap은 학술적 연구와 실제 추론 엔진 통합 사이의 간극을 메울 수 있는 유력한 생산 환경 배포 후보로 평가됩니다.