목록으로
gemma3
Service2025.03.22

gemma3

요약

Google의 Gemma 3 모델은 Gemini 기술 기반의 경량 모델군으로, 270M부터 27B까지 다양한 파라미터 크기로 제공됩니다.
이 모델들은 128K의 Context Window와 140개 이상의 언어를 지원하며, 텍스트 및 이미지를 처리하는 멀티모달 기능을 갖추고 있습니다.
Gemma 3는 질문 답변, 요약, 추론 등 다양한 벤치마크에서 우수한 성능을 보이며, 메모리 효율적인 QAT 버전도 제공됩니다.

상세 내용

Gemma 3는 Google이 Gemini 기술을 기반으로 개발한 경량 모델군입니다. 이 모델들은 텍스트와 이미지를 모두 처리할 수 있는 multimodal 능력을 가지며, 128K 토큰의 긴 context window와 140개 이상의 언어를 지원합니다. 270M, 1B, 4B, 12B, 27B의 다양한 파라미터 크기로 제공되어 질문 응답, 요약, 추론과 같은 task에서 뛰어난 성능을 보이며, 컴팩트한 디자인 덕분에 리소스가 제한된 기기에서도 배포할 수 있습니다. 모델 사용을 위해서는 Ollama 0.6 버전 이상이 필요합니다.

모델 구성:
Gemma 3 모델들은 크게 Text 전용 모델과 Multimodal (Vision) 모델로 나뉩니다.
* Text 전용 모델:
* gemma3:270m: 270M 파라미터, 32K context window.
* gemma3:1b: 1B 파라미터, 32K context window.
* Multimodal (Vision) 모델:
* gemma3:4b: 4B 파라미터, 128K context window.
* gemma3:12b: 12B 파라미터, 128K context window.
* gemma3:27b: 27B 파라미터, 128K context window.
클라우드 배포를 위한 gemma3:4b-cloud, gemma3:12b-cloud, gemma3:27b-cloud 모델도 있으며, 이들 중 gemma3:27b-cloud는 128K context window를 지원합니다.

Quantization Aware Trained (QAT) 모델:
Gemma 3는 quantization aware trained 모델도 제공합니다. 이 모델들은 non-quantized 모델 대비 3배 적은 메모리를 사용하면서도 half precision 모델(BF16)과 유사한 품질을 유지합니다. QAT 모델은 1B, 4B, 12B, 27B 파라미터 크기로 제공됩니다 (gemma3:1b-it-qat, gemma3:4b-it-qat, gemma3:12b-it-qat, gemma3:27b-it-qat).

평가 및 벤치마크 결과:
Gemma 3 모델들은 다양한 데이터셋과 metrics를 사용하여 텍스트 생성의 여러 측면(추론, 논리, 코드 기능, 다국어 기능, 멀티모달 기능)에 걸쳐 광범위하게 평가되었습니다.

* Gemma 3 270M 평가: Instruction-tuned 270M 모델은 HellaSwag (0-shot): 37.7, PIQA (0-shot): 66.2, ARC-c (0-shot): 28.2, WinoGrande (0-shot): 52.3, BIG-Bench Hard (few-shot): 26.7, IF Eval (0-shot): 51.2의 성능을 보였습니다.

* 추론, 논리 및 코드 능력: 다양한 벤치마크에서 모델 크기가 커질수록 성능이 향상되는 경향을 보입니다.
* HellaSwag (10-shot): 1B (62.3) → 27B (85.6)
* MMLU (5-shot, top-1): 1B (26.5) → 27B (78.6)
* MATH (4-shot): 4B (24.2) → 27B (50.0)
* GSM8K (5-shot, maj@1): 1B (1.36) → 27B (82.6)
* HumanEval (pass@1): 1B (6.10) → 27B (48.8)
특히, 코드 생성 및 수학 문제 해결 능력에서 큰 모델일수록 유의미한 성능 개선을 보여줍니다.

* 다국어 능력:
* MGSM: 1B (2.04) → 27B (74.3)
* Global-MMLU-Lite: 1B (24.9) → 27B (75.7)
* Belebele: 1B (26.6) → 12B (78.0) (27B 모델 데이터 없음)
* WMT24++ (ChrF): 1B (36.7) → 27B (55.7)
다국어 이해 및 생성 능력에서도 모델 크기에 비례하여 성능이 향상됩니다.

* 멀티모달 능력: 4B, 12B, 27B 모델이 시각적 이해와 추론 능력을 평가하는 벤치마크에서 평가되었습니다.
* COCOcap (image captioning): 4B (102) → 27B (116)
* DocVQA (document visual question answering): 4B (72.8) → 27B (85.6)
* MMMU (multimodal understanding): 4B (39.2) → 27B (56.1)
* ChartQA (chart-based question answering): 4B (45.4) → 27B (63.8), augmented version 4B (81.8) → 27B (88.7)
전반적으로 모델 크기가 커질수록 멀티모달 벤치마크에서도 성능이 향상되는 것을 확인할 수 있습니다.

원본 보기
Web
Shared by Anonymous