Blog

Quantization concepts

2026.04.14

·Hugging Face·by 배레온/부산/개발자

#Deep Learning#Inference Optimization#LLM#Model Compression#Quantization

핵심 포인트

1Quantization은 float32 대신 int8과 같은 저정밀도 데이터 타입을 사용하여 모델 크기를 줄이고, 추론 속도를 높이며, 에너지 소비를 줄이는 기술이지만, 정확도 손실이 발생할 수 있습니다.
2Quantization은 주로 scale(S) 및 zero-point(Z) 파라미터를 사용하는 affine quantization 방식을 통해 float32 값을 int8 범위로 매핑하며, int4 및 FP8과 같은 다양한 데이터 타입으로도 적용됩니다.
3Quantization은 모델 훈련 후에 적용하는 PTQ와 훈련 중에 시뮬레이션하는 QAT 기술로 나뉘며, Hugging Face Transformers 라이브러리는 `BitsAndBytesConfig`를 포함한 다양한 백엔드를 통해 이를 통합 지원합니다.

[-128, 127]

Blog

2026.04.14

·Hugging Face·by 배레온/부산/개발자

#Deep Learning#Inference Optimization#LLM#Model Compression#Quantization

1Quantization은 float32 대신 int8과 같은 저정밀도 데이터 타입을 사용하여 모델 크기를 줄이고, 추론 속도를 높이며, 에너지 소비를 줄이는 기술이지만, 정확도 손실이 발생할 수 있습니다.
2Quantization은 주로 scale(S) 및 zero-point(Z) 파라미터를 사용하는 affine quantization 방식을 통해 float32 값을 int8 범위로 매핑하며, int4 및 FP8과 같은 다양한 데이터 타입으로도 적용됩니다.
3Quantization은 모델 훈련 후에 적용하는 PTQ와 훈련 중에 시뮬레이션하는 QAT 기술로 나뉘며, Hugging Face Transformers 라이브러리는 `BitsAndBytesConfig`를 포함한 다양한 백엔드를 통해 이를 통합 지원합니다.

[-128, 127]