Paper

KVzap: Fast, Adaptive, and Faithful KV Cache Pruning

Maximilian Jeblick

2026.01.20

·Arxiv·by 이호민

#KV Cache Pruning#LLM Inference#Transformer#KVzip#KVzap

핵심 포인트

1기존 KV 캐시 pruning 방법들의 속도 및 적용 한계를 극복하기 위해, 본 논문은 KVzip을 빠르고 적응적으로 근사하는 KVzap을 제안합니다.
2KVzap은 모델의 hidden state로부터 중요도 점수를 예측하도록 학습된 경량 surrogate model(linear layer 또는 MLP)을 사용하여, 임계값 𝜏 이하의 KV 쌍을 제거함으로써 캐시를 압축합니다.
3Qwen3-8B, Llama-3.1-8B-Instruct, Qwen3-32B 모델에서 다양한 long-context 및 reasoning task 전반에 걸쳐 KVzap은 2–4배의 KV 캐시 압축률을 달성하면서도 정확도 손실을 무시할 수 있는 수준으로 유지하며, SOTA 성능을 보여줍니다.

<prompt>

Paper

Maximilian Jeblick

2026.01.20

·Arxiv·by 이호민

#KV Cache Pruning#LLM Inference#Transformer#KVzip#KVzap

1기존 KV 캐시 pruning 방법들의 속도 및 적용 한계를 극복하기 위해, 본 논문은 KVzip을 빠르고 적응적으로 근사하는 KVzap을 제안합니다.
2KVzap은 모델의 hidden state로부터 중요도 점수를 예측하도록 학습된 경량 surrogate model(linear layer 또는 MLP)을 사용하여, 임계값 𝜏 이하의 KV 쌍을 제거함으로써 캐시를 압축합니다.
3Qwen3-8B, Llama-3.1-8B-Instruct, Qwen3-32B 모델에서 다양한 long-context 및 reasoning task 전반에 걸쳐 KVzap은 2–4배의 KV 캐시 압축률을 달성하면서도 정확도 손실을 무시할 수 있는 수준으로 유지하며, SOTA 성능을 보여줍니다.

<prompt>