gemma3
요약
상세 내용
모델 구성:
Gemma 3 모델들은 크게 Text 전용 모델과 Multimodal (Vision) 모델로 나뉩니다.
* Text 전용 모델:
* gemma3:270m: 270M 파라미터, 32K context window.
* gemma3:1b: 1B 파라미터, 32K context window.
* Multimodal (Vision) 모델:
* gemma3:4b: 4B 파라미터, 128K context window.
* gemma3:12b: 12B 파라미터, 128K context window.
* gemma3:27b: 27B 파라미터, 128K context window.
클라우드 배포를 위한 gemma3:4b-cloud, gemma3:12b-cloud, gemma3:27b-cloud 모델도 있으며, 이들 중 gemma3:27b-cloud는 128K context window를 지원합니다.
Quantization Aware Trained (QAT) 모델:
Gemma 3는 quantization aware trained 모델도 제공합니다. 이 모델들은 non-quantized 모델 대비 3배 적은 메모리를 사용하면서도 half precision 모델(BF16)과 유사한 품질을 유지합니다. QAT 모델은 1B, 4B, 12B, 27B 파라미터 크기로 제공됩니다 (gemma3:1b-it-qat, gemma3:4b-it-qat, gemma3:12b-it-qat, gemma3:27b-it-qat).
평가 및 벤치마크 결과:
Gemma 3 모델들은 다양한 데이터셋과 metrics를 사용하여 텍스트 생성의 여러 측면(추론, 논리, 코드 기능, 다국어 기능, 멀티모달 기능)에 걸쳐 광범위하게 평가되었습니다.
* Gemma 3 270M 평가: Instruction-tuned 270M 모델은 HellaSwag (0-shot): 37.7, PIQA (0-shot): 66.2, ARC-c (0-shot): 28.2, WinoGrande (0-shot): 52.3, BIG-Bench Hard (few-shot): 26.7, IF Eval (0-shot): 51.2의 성능을 보였습니다.
* 추론, 논리 및 코드 능력: 다양한 벤치마크에서 모델 크기가 커질수록 성능이 향상되는 경향을 보입니다.
* HellaSwag (10-shot): 1B (62.3) → 27B (85.6)
* MMLU (5-shot, top-1): 1B (26.5) → 27B (78.6)
* MATH (4-shot): 4B (24.2) → 27B (50.0)
* GSM8K (5-shot, maj@1): 1B (1.36) → 27B (82.6)
* HumanEval (pass@1): 1B (6.10) → 27B (48.8)
특히, 코드 생성 및 수학 문제 해결 능력에서 큰 모델일수록 유의미한 성능 개선을 보여줍니다.
* 다국어 능력:
* MGSM: 1B (2.04) → 27B (74.3)
* Global-MMLU-Lite: 1B (24.9) → 27B (75.7)
* Belebele: 1B (26.6) → 12B (78.0) (27B 모델 데이터 없음)
* WMT24++ (ChrF): 1B (36.7) → 27B (55.7)
다국어 이해 및 생성 능력에서도 모델 크기에 비례하여 성능이 향상됩니다.
* 멀티모달 능력: 4B, 12B, 27B 모델이 시각적 이해와 추론 능력을 평가하는 벤치마크에서 평가되었습니다.
* COCOcap (image captioning): 4B (102) → 27B (116)
* DocVQA (document visual question answering): 4B (72.8) → 27B (85.6)
* MMMU (multimodal understanding): 4B (39.2) → 27B (56.1)
* ChartQA (chart-based question answering): 4B (45.4) → 27B (63.8), augmented version 4B (81.8) → 27B (88.7)
전반적으로 모델 크기가 커질수록 멀티모달 벤치마크에서도 성능이 향상되는 것을 확인할 수 있습니다.