Introducing Gemma 3: The Developer Guide- Google Developers Blog

요약

Gemma 3는 multimodality, 128k 토큰 context window, 140개 이상의 언어 지원을 포함한 새로운 기능을 탑재하여 출시된 가장 진보된 Gemma open-model입니다.

️ 이 모델은 distillation 및 RLHF, RLMF, RLEF와 같은 강화 학습을 포함한 최적화된 pre-training 및 post-training 과정을 통해 수학, 코딩, 명령어 수행 능력이 크게 향상되었습니다.

️ Gemma 3는 SigLIP 기반의 통합 vision encoder를 사용하여 이미지 및 비디오 입력을 처리하고 고해상도 이미지에 적합한 adaptive window 알고리즘을 사용하며, 다양한 개발 도구 및 배포 옵션을 제공합니다.

상세 내용

Gemma 3는 Gemma open-model family의 가장 진보되고 강력한 버전으로, 이전 Gemma 릴리스의 성공을 기반으로 한다. 커뮤니티 피드백을 반영하여 더 긴 Context Window, Multimodality 등의 요청이 많았던 기능을 추가했다.

Gemma 3는 Vision-language 입력과 Text 출력을 지원하며, 최대 128k 토큰의 Context Window를 처리할 수 있다. 140개 이상의 언어를 이해하며, 수학, 추론, 채팅 기능(Structured Outputs 및 Function Calling 포함)이 개선되었다. Gemma 3는 1B, 4B, 12B, 27B의 네 가지 크기로 제공되며, 특정 Use Case 및 Domain에 맞게 Fine-tuning할 수 있는 Pre-trained 모델과 General-purpose Instruction-tuned 버전으로 구성된다.

Gemma 3의 Core Methodology는 Distillation, Reinforcement Learning, Model Merging의 조합을 사용하여 Pre-training 및 Post-training 프로세스를 최적화했다. 이를 통해 수학, 코딩, Instruction Following 성능이 향상되었다. Multilingual 지원을 강화하기 위해 140개 이상의 언어를 지원하는 새로운 Tokenizer가 도입되었으며, 훈련 데이터는 1B 모델은 2T 토큰, 4B 모델은 4T 토큰, 12B 모델은 12T 토큰, 27B 모델은 14T 토큰으로 구성되어 Google TPUs와 JAX Framework를 사용하여 훈련되었다.

Post-training은 네 가지 주요 구성 요소를 사용했다:

Distillation: 더 큰 Instruct Model에서 Gemma 3 Pre-trained Checkpoint로 지식을 증류(Distillation)하여 모델의 지식과 추론 능력을 전이시켰다.

RLHF (Reinforcement Learning from Human Feedback): 인간의 선호도와 모델의 예측을 정렬하기 위해 인간 피드백을 활용한 강화 학습을 적용했다. 이는 모델이 보다 유용하고 안전한 응답을 생성하도록 돕는다.

RLMF (Reinforcement Learning from Machine Feedback): 수학적 추론 능력을 향상시키기 위해 머신 피드백을 활용한 강화 학습을 사용했다. 이는 모델이 복잡한 수학 문제를 해결하는 데 필요한 논리적 단계를 학습하도록 유도한다.

RLEF (Reinforcement Learning from Execution Feedback): 코딩 기능을 개선하기 위해 실행 피드백(Execution Feedback)을 활용한 강화 학습을 적용했다. 이는 모델이 생성한 코드가 실제로 실행되고 올바른 결과를 생성하는지 여부를 피드백으로 활용하여 코딩 능력을 강화한다.

이러한 Post-training 업데이트는 모델의 수학, 코딩, Instruction Following 능력을 크게 향상시켰으며, 그 결과 LMArena에서 1338점의 점수로 Top open compact model이 되었다.

Gemma 3의 Instruct 버전은 Gemma 2와 동일한 대화 형식을 사용하므로 텍스트 전용 입력의 경우 기존 툴링을 업데이트할 필요가 없다. 이미지 입력의 경우, 텍스트와 이미지를 Interleaved 방식으로 지정할 수 있다. Gemma 3는 SigLIP 기반의 Integrated Vision Encoder를 갖추고 있다. 이 Vision Model은 훈련 중에 Frozen 상태로 유지되었으며, 4B, 12B, 27B와 같은 다양한 모델 크기에서 동일하다. 덕분에 Gemma는 이미지와 비디오를 입력으로 사용하여 이미지를 분석하고, 이미지에 대한 질문에 답변하며, 이미지를 비교하고, 객체를 식별하며, 이미지 내 텍스트에 대해서도 응답할 수 있다. 모델은 원래 896x896 픽셀 이미지에 최적화되었지만, 새로운 Adaptive Window Algorithm을 사용하여 입력 이미지를 분할함으로써 고해상도 및 비정방형 이미지도 처리할 수 있다.

또한, Gemma 3를 기반으로 구축된 4B 이미지 안전 분류기인 ShieldGemma 2가 소개되었다. ShieldGemma 2는 주요 안전 카테고리에 걸쳐 레이블을 출력하여 생성된 이미지(Image Generation Model에서)와 자연 이미지(Gemma 3와 같은 Vision-Language Model의 입력 필터일 수 있음)의 안전 Moderation을 가능하게 한다.

개발자는 Google AI Studio에서 직접 Gemma 3를 실험하거나, Hugging Face 및 Kaggle에서 모델 Weights를 다운로드할 수 있다. Technical Report 및 종합 Documentation을 통해 프로젝트에 통합하거나 Inference Guide 및 Custom Dataset을 사용한 Fine-tuning을 시작할 수 있다. Hugging Face Transformers, Ollama, Gemma JAX library, MaxText, LiteRT, Gemma.cpp, llama.cpp, Unsloth와 같은 다양한 개발 도구를 지원한다. 배포는 Google GenAI API, Vertex AI, Cloud Run, Cloud TPU, Cloud GPU 등 여러 옵션을 통해 유연하게 선택할 수 있다.

#Gemma #LLM #Multimodality #Google AI #Generative AI