Introducing Gemma 3: The Developer Guide- Google Developers Blog
요약
상세 내용
Gemma 3는 Vision-language 입력과 Text 출력을 지원하며, 최대 128k 토큰의 Context Window를 처리할 수 있다. 140개 이상의 언어를 이해하며, 수학, 추론, 채팅 기능(Structured Outputs 및 Function Calling 포함)이 개선되었다. Gemma 3는 1B, 4B, 12B, 27B의 네 가지 크기로 제공되며, 특정 Use Case 및 Domain에 맞게 Fine-tuning할 수 있는 Pre-trained 모델과 General-purpose Instruction-tuned 버전으로 구성된다.
Gemma 3의 Core Methodology는 Distillation, Reinforcement Learning, Model Merging의 조합을 사용하여 Pre-training 및 Post-training 프로세스를 최적화했다. 이를 통해 수학, 코딩, Instruction Following 성능이 향상되었다. Multilingual 지원을 강화하기 위해 140개 이상의 언어를 지원하는 새로운 Tokenizer가 도입되었으며, 훈련 데이터는 1B 모델은 2T 토큰, 4B 모델은 4T 토큰, 12B 모델은 12T 토큰, 27B 모델은 14T 토큰으로 구성되어 Google TPUs와 JAX Framework를 사용하여 훈련되었다.
Post-training은 네 가지 주요 구성 요소를 사용했다:
Gemma 3의 Instruct 버전은 Gemma 2와 동일한 대화 형식을 사용하므로 텍스트 전용 입력의 경우 기존 툴링을 업데이트할 필요가 없다. 이미지 입력의 경우, 텍스트와 이미지를 Interleaved 방식으로 지정할 수 있다. Gemma 3는 SigLIP 기반의 Integrated Vision Encoder를 갖추고 있다. 이 Vision Model은 훈련 중에 Frozen 상태로 유지되었으며, 4B, 12B, 27B와 같은 다양한 모델 크기에서 동일하다. 덕분에 Gemma는 이미지와 비디오를 입력으로 사용하여 이미지를 분석하고, 이미지에 대한 질문에 답변하며, 이미지를 비교하고, 객체를 식별하며, 이미지 내 텍스트에 대해서도 응답할 수 있다. 모델은 원래 896x896 픽셀 이미지에 최적화되었지만, 새로운 Adaptive Window Algorithm을 사용하여 입력 이미지를 분할함으로써 고해상도 및 비정방형 이미지도 처리할 수 있다.
또한, Gemma 3를 기반으로 구축된 4B 이미지 안전 분류기인 ShieldGemma 2가 소개되었다. ShieldGemma 2는 주요 안전 카테고리에 걸쳐 레이블을 출력하여 생성된 이미지(Image Generation Model에서)와 자연 이미지(Gemma 3와 같은 Vision-Language Model의 입력 필터일 수 있음)의 안전 Moderation을 가능하게 한다.
개발자는 Google AI Studio에서 직접 Gemma 3를 실험하거나, Hugging Face 및 Kaggle에서 모델 Weights를 다운로드할 수 있다. Technical Report 및 종합 Documentation을 통해 프로젝트에 통합하거나 Inference Guide 및 Custom Dataset을 사용한 Fine-tuning을 시작할 수 있다. Hugging Face Transformers, Ollama, Gemma JAX library, MaxText, LiteRT, Gemma.cpp, llama.cpp, Unsloth와 같은 다양한 개발 도구를 지원한다. 배포는 Google GenAI API, Vertex AI, Cloud Run, Cloud TPU, Cloud GPU 등 여러 옵션을 통해 유연하게 선택할 수 있다.