Paper

TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

Majid Hadian

2026.03.27

·Arxiv·by 이호민

#AI#Algorithm#Data Compression#Machine Learning#Vector Quantization

핵심 포인트

1TurboQuant는 고차원 벡터에 대한 평균 제곱 오차(MSE) 및 내적(inner product) 왜곡을 최소화하는 온라인 벡터 양자화(VQ) 알고리즘을 제안하여, 기존 방법의 한계를 극복합니다.
2이 방법은 입력 벡터를 무작위로 회전시켜 각 좌표를 독립적으로 최적의 스칼라 양자화(scalar quantization)하고, 내적 추정을 위해 잔차(residual)에 1-bit QJL 변환을 적용하는 2단계 접근 방식을 사용합니다.
3TurboQuant는 이론적으로 거의 최적의 왜곡률(distortion rates)을 달성하며, KV 캐시 양자화 및 근접 이웃(Nearest Neighbor) 검색 작업에서 기존 기법들을 능가하는 우수한 성능을 입증합니다.

\mathbf{x} \in \mathbb{R}^d

Paper

Majid Hadian

2026.03.27

·Arxiv·by 이호민

#AI#Algorithm#Data Compression#Machine Learning#Vector Quantization

1TurboQuant는 고차원 벡터에 대한 평균 제곱 오차(MSE) 및 내적(inner product) 왜곡을 최소화하는 온라인 벡터 양자화(VQ) 알고리즘을 제안하여, 기존 방법의 한계를 극복합니다.
2이 방법은 입력 벡터를 무작위로 회전시켜 각 좌표를 독립적으로 최적의 스칼라 양자화(scalar quantization)하고, 내적 추정을 위해 잔차(residual)에 1-bit QJL 변환을 적용하는 2단계 접근 방식을 사용합니다.
3TurboQuant는 이론적으로 거의 최적의 왜곡률(distortion rates)을 달성하며, KV 캐시 양자화 및 근접 이웃(Nearest Neighbor) 검색 작업에서 기존 기법들을 능가하는 우수한 성능을 입증합니다.

\mathbf{x} \in \mathbb{R}^d