목록으로
Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs- Google Developers Blog
Blog2025.04.20

Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs- Google Developers Blog

요약

Gemma 3 모델이 QAT(Quantization-Aware Training)를 통해 최적화되어, 고품질을 유지하면서 메모리 요구 사항을 대폭 줄였습니다.
이로 인해 Gemma 3 27B와 같은 대형 모델도 NVIDIA RTX 3090 같은 소비자용 GPU에서 실행 가능하며, VRAM 사용량이 54GB(BF16)에서 14.1GB(int4)로 크게 감소합니다.
️ QAT 모델은 Ollama, llama.cpp 등 인기 있는 도구들과의 통합을 지원하여, 최신 AI를 개인 장치에서 더욱 쉽게 접근하고 활용할 수 있도록 합니다.

상세 내용

이 논문은 최신 AI 모델인 Gemma 3를 소비자용 GPU에서 실행할 수 있도록 하는 Quantization-Aware Training (QAT) 기반의 최적화된 버전을 소개합니다. Gemma 3는 BFloat16 (BF16) 정밀도를 사용하여 NVIDIA H100과 같은 하이엔드 GPU에서 최첨단 성능을 제공하지만, 이러한 대규모 모델의 높은 하드웨어 요구사항은 접근성을 제한합니다.

이러한 문제를 해결하기 위해, 논문은 QAT를 활용하여 모델의 메모리 요구사항을 획기적으로 줄이면서도 높은 품질을 유지하는 방법을 제시합니다. Quantization은 AI 모델의 파라미터가 저장되고 계산에 사용되는 숫자의 정밀도를 줄이는 기술입니다. 예를 들어, BF16 (16비트) 정밀도를 int8 (8비트) 또는 int4 (4비트)와 같이 더 낮은 비트로 표현합니다. int4를 사용하면 BF16에 비해 데이터 크기가 4배 감소하여 VRAM 사용량을 크게 줄일 수 있습니다. 그러나 단순히 학습 후 양자화(Post-Training Quantization, PTQ)를 적용하면 성능 저하가 발생할 수 있습니다.

핵심 방법론: Quantization-Aware Training (QAT)
QAT는 이러한 성능 저하를 최소화하면서 양자화 모델의 품질을 유지하는 핵심 기술입니다. PTQ가 모델 학습 완료 후에 양자화를 적용하는 것과 달리, QAT는 모델의 학습 과정 중에 양자화 프로세스를 통합합니다. 이는 학습 중에 낮은 정밀도(low-precision) 연산을 시뮬레이션함으로써 이루어집니다. 이를 통해 모델은 저정밀도 환경에 "적응"하여, 실제 양자화가 적용되었을 때 품질 저하를 줄일 수 있도록 견고해집니다.

더 깊이 들어가면, Gemma 3 QAT 모델의 경우, 비양자화된 체크포인트(non-quantized checkpoint)의 확률을 목표로 사용하여 약 5,000단계에 걸쳐 QAT를 적용했습니다. 이 방법은 Q4_0로 양자화했을 때 llama.cpp의 perplexity 평가에서 perplexity drop을 54% 감소시키는 효과를 보여, 모델의 정확도를 효과적으로 유지함을 입증했습니다.

VRAM 절감 및 접근성 향상
int4 양자화의 영향은 매우 극적입니다. 모델 가중치를 로드하는 데 필요한 VRAM 요구사항은 다음과 같이 크게 줄어들었습니다:
* Gemma 3 27B: 54 GB (BF16)에서 14.1 GB (int4)로 감소
* Gemma 3 12B: 24 GB (BF16)에서 6.6 GB (int4)로 감소
* Gemma 3 4B: 8 GB (BF16)에서 2.6 GB (int4)로 감소
* Gemma 3 1B: 2 GB (BF16)에서 0.5 GB (int4)로 감소

이러한 VRAM 절감 덕분에 Gemma 3 27B (int4)는 NVIDIA RTX 3090 (24GB VRAM)과 같은 단일 데스크톱 소비자용 GPU에서 실행 가능해졌습니다. Gemma 3 12B (int4)는 NVIDIA RTX 4060 Laptop GPU (8GB VRAM)와 같은 노트북 GPU에서도 효율적으로 실행될 수 있게 되었으며, 더 작은 모델(4B, 1B)은 더욱 제한된 리소스를 가진 시스템에서도 접근성을 높였습니다.

쉬운 통합 및 생태계 지원
QAT를 통해 최적화된 Gemma 3 모델은 Hugging Face 및 Kaggle에서 공식적으로 제공됩니다. 또한 Ollama, LM Studio, MLX, Gemma.cpp, llama.cpp와 같은 인기 있는 개발자 도구와의 원활한 통합을 지원하여 사용자가 쉽게 모델을 활용할 수 있도록 합니다. 논문은 또한 커뮤니티에서 제공되는 다양한 Post-Training Quantization (PTQ) 모델들도 언급하며, 사용자가 특정 요구사항에 맞는 다양한 트레이드오프를 탐색할 수 있음을 강조합니다.

결론적으로, 이 논문은 QAT를 통해 Gemma 3와 같은 최첨단 AI 모델을 소비자용 하드웨어에 배포하여 AI 개발의 민주화를 가속화하는 중요한 진전을 이루었음을 보여줍니다.

원본 보기
Web
Shared by Anonymous