Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings- Google Developers Blog

요약

EmbeddingGemma는 308M 파라미터 크기에서 동급 최고 성능을 제공하며 온디바이스 AI에 최적화된 새로운 오픈 임베딩 모델입니다.

️ 이 모델은 200MB 미만의 RAM으로 실행 가능하고 Matryoshka Representation Learning을 통해 맞춤형 출력 차원을 제공하여 빠르고 효율적인 오프라인 사용을 지원합니다.

EmbeddingGemma는 기기에서 직접 고품질 임베딩을 생성하여 모바일 RAG 파이프라인, 시맨틱 검색 등 개인 정보 보호 중심의 온디바이스 애플리케이션을 구현합니다.

상세 내용

이 논문은 온디바이스(on-device) AI를 위해 특별히 설계된 새로운 오픈 임베딩 모델인 EmbeddingGemma를 소개합니다. 이 모델은 크기 대비 동급 최고의 성능을 제공하며, 특히 모바일 기기, 노트북, 데스크톱 등 일반적인 하드웨어에서 직접 실행될 수 있도록 고효율성을 지향합니다.

주요 특징 및 성능:

* 동급 최고 성능: EmbeddingGemma는 5억(500M) 개 미만의 파라미터를 가진 오픈 다국어 텍스트 임베딩 모델 중 Massive Text Embedding Benchmark (MTEB)에서 가장 높은 순위를 기록했습니다. Gemma 3 아키텍처를 기반으로 100개 이상의 언어로 학습되었으며, 양자화(quantization) 시 200MB 미만의 RAM으로도 실행 가능할 정도로 작습니다.
* 고효율 및 유연성: 3억 8백만(308M) 개의 파라미터로 구성되어 있으며, 약 1억(100M) 개의 모델 파라미터와 2억(200M) 개의 임베딩 파라미터로 이루어져 있습니다. Matryoshka Representation Learning (MRL) 기술을 활용하여 768에서 128까지 다양한 출력 차원(dimensions)을 제공하여 개발자가 품질과 속도/저장 비용 사이에서 유연하게 선택할 수 있도록 합니다. EdgeTPU에서 256 입력 토큰 기준 15ms 미만의 임베딩 추론(inference) 시간을 제공하여 실시간 반응을 가능하게 합니다.
* 오프라인 및 프라이버시 중심: 기기 자체에서 임베딩을 생성하여 민감한 사용자 데이터의 보안을 보장하고, 인터넷 연결 없이도 작동합니다. Gemma 3n과 동일한 토크나이저(tokenizer)를 사용하여 RAG 애플리케이션의 메모리 사용량을 줄입니다.

핵심 기술 및 RAG 파이프라인에서의 역할:

EmbeddingGemma는 텍스트(문장 및 문서)를 고차원 공간에서 의미를 표현하는 숫자 벡터인 임베딩으로 변환합니다. 임베딩의 품질은 언어의 뉘앙스와 복잡성을 얼마나 잘 표현하는지에 따라 결정됩니다.

* Retrieval Augmented Generation (RAG) 파이프라인: RAG는 사용자의 입력에 기반하여 관련 컨텍스트를 검색하고, 해당 컨텍스트에 근거하여 답변을 생성하는 두 가지 주요 단계로 구성됩니다. EmbeddingGemma는 검색(retrieval) 단계에서 핵심적인 역할을 합니다.
* 사용자 프롬프트의 임베딩을 생성한 다음, 시스템 내 모든 문서의 임베딩과의 유사성을 계산하여 가장 관련성 높은 문서를 찾아냅니다.
* 이 검색된 문서는 원래 사용자 쿼리와 함께 Gemma 3n과 같은 생성형 모델에 전달되어 맥락에 맞는 답변을 생성하는 데 사용됩니다.
* 이 RAG 파이프라인의 효과성은 초기 검색 단계의 임베딩 품질에 크게 좌우됩니다. EmbeddingGemma는 이러한 고품질 임베딩을 제공하여 정확하고 신뢰할 수 있는 온디바이스 애플리케이션을 가능하게 합니다.
* Matryoshka Representation Learning (MRL): 이 기술은 단일 모델에서 여러 임베딩 크기를 제공하는 핵심 방법론입니다. 개발자는 최대 품질을 위해 전체 768-차원 벡터를 사용하거나, 속도 및 저장 비용 절감을 위해 128, 256, 512와 같은 더 작은 차원으로 잘라내어 사용할 수 있습니다. 이는 모델의 유연성을 극대화합니다.
* Quantization-Aware Training (QAT): 이 훈련 기법을 통해 모델은 품질을 보존하면서도 RAM 사용량을 200MB 미만으로 크게 줄일 수 있어 리소스 제약이 있는 기기에서도 효율적으로 작동합니다.

활용 사례 및 통합:

* 인터넷 연결 없이 개인 파일, 문자, 이메일, 알림 검색.
* Gemma 3n과 연동하여 개인화된, 산업별, 오프라인 지원 챗봇 구축.
* 사용자 쿼리를 관련 함수 호출로 분류하여 모바일 에이전트의 이해도를 높임.
* sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, transformers.js, LMStudio, Weaviate, Cloudflare, LlamaIndex, LangChain 등 인기 있는 도구 및 프레임워크와 쉽게 통합됩니다.

모델 접근성:

EmbeddingGemma 모델 가중치는 Hugging Face, Kaggle, Vertex AI에서 다운로드할 수 있습니다. 온디바이스, 오프라인 사용 사례에 최적화되어 있으며, 대규모 서버 측 애플리케이션의 경우 Gemini API를 통한 Gemini Embedding model이 최고 품질과 성능을 위해 권장됩니다.

#EmbeddingGemma #On-Device AI #RAG #Embeddings #Open Model