목록으로
google/gemma-3n-E2B-it-litert-preview · Hugging Face
Service2025.05.25

google/gemma-3n-E2B-it-litert-preview · Hugging Face

요약

Gemma 3n은 Google DeepMind의 경량 스테이트-오브-아트 open model로, 저사양 장치에서 효율적인 멀티모달 입력 처리 및 텍스트 출력을 위해 설계되었습니다.
140개 이상의 언어로 구성된 11조 토큰의 방대한 데이터셋으로 훈련되었으며, 다양한 벤치마크에서 추론, 다국어, STEM 및 코드 관련 성능을 입증했습니다.
️ 텍스트 생성, 챗봇, 요약 등 광범위한 콘텐츠 생성 및 연구에 활용 가능하지만, 훈련 데이터 편향, 사실 정확도, 상식 부족 등의 한계와 윤리적 고려 사항이 존재합니다.

상세 내용

이 문서는 Google의 Gemma 3n 모델 패밀리를 소개하는 내용입니다. Gemma 3n은 Google의 Gemini 모델을 만드는 데 사용된 동일한 연구 및 기술을 기반으로 구축된 최첨단 경량 오픈 모델입니다.

주요 특징 및 아키텍처:
Gemma 3n 모델은 리소스가 제한된 장치(노트북, 데스크탑, 개인 클라우드 인프라 등)에서 효율적으로 실행되도록 설계되었습니다. 이 모델은 텍스트, 이미지, 비디오, 오디오를 포함한 다양한 양식의 입력을 처리하고 텍스트 출력을 생성할 수 있는 멀티모달 기능을 가지고 있습니다. 특히, instruction-tuned 버전의 경우 가중치가 공개(open weights)되어 있습니다.

Gemma 3n의 핵심적인 기술적 특징은 다음과 같습니다:
* Matformer 아키텍처: 여러 모델을 중첩할 수 있도록 설계된 새로운 아키텍처를 특징으로 합니다.
* Selective Parameter Activation Technology (선택적 파라미터 활성화 기술): 이 기술을 통해 모델은 전체 파라미터 수보다 적은 20억(2B) 및 40억(4B) 파라미터의 "유효 크기(effective size)"로 작동하여 리소스 요구 사항을 줄입니다. 이는 효율적인 실행을 가능하게 합니다.

입력 및 출력:
* 입력:
* 텍스트 문자열 (질문, 프롬프트, 요약할 문서 등).
* 이미지 (256x256, 512x512, 768x768 해상도로 정규화되며, 각 이미지는 256 토큰으로 인코딩됨).
* 오디오 데이터 (단일 채널에서 초당 6.25 토큰으로 인코딩됨).
* 총 입력 컨텍스트는 32K 토큰입니다.
* 출력:
* 입력에 대한 응답으로 생성된 텍스트 (질문에 대한 답변, 이미지 내용 분석, 문서 요약 등).
* 총 출력 길이는 요청 입력 토큰을 제외하고 최대 32K 토큰입니다.

모델 데이터 및 학습:
* 학습 데이터셋: 2024년 6월까지의 지식을 포함하여 약 11조 토큰에 달하는 방대한 데이터를 사용했습니다. 이 데이터셋은 140개 이상의 언어로 된 웹 문서, 코드, 수학 텍스트, 이미지, 오디오 등 다양한 소스로 구성되어 모델이 광범위한 언어 스타일과 도메인을 학습할 수 있도록 합니다.
* 데이터 전처리: 학습 데이터는 다음과 같은 엄격한 전처리 과정을 거쳤습니다.
* CSAM(Child Sexual Abuse Material) 필터링: 유해하고 불법적인 콘텐츠를 배제하기 위해 여러 단계에서 적용되었습니다.
* 민감한 데이터 필터링: 특정 개인 정보 및 기타 민감한 데이터를 학습 세트에서 제외하기 위한 자동화된 기술이 사용되었습니다.
* 추가적인 필터링: 콘텐츠 품질 및 안전 정책에 따른 필터링이 이루어졌습니다.

구현 정보:
* 하드웨어: 모델 학습에는 Tensor Processing Unit (TPU) 하드웨어 (TPUv4p, TPUv5p 및 TPUv5e)가 사용되었습니다. TPU는 대규모 연산을 처리하고, 대용량 메모리를 제공하며, TPU Pods를 통한 확장성, 그리고 비용 효율성 측면에서 생성형 모델 학습에 최적화되어 있습니다.
* 소프트웨어: 학습은 JAX와 ML Pathways를 사용하여 수행되었습니다. JAX는 최신 하드웨어(TPU 포함)를 활용하여 빠르고 효율적인 학습을 가능하게 합니다. ML Pathways는 다중 작업을 일반화할 수 있는 AI 시스템을 구축하기 위한 Google의 노력으로, Gemma와 같은 대규모 파운데이션 모델에 적합합니다. Gemini 모델에 대한 논문에서 언급된 바와 같이, JAX와 Pathways의 "단일 컨트롤러" 프로그래밍 모델은 개발 워크플로우를 크게 단순화합니다.

평가:
모델은 부동 소수점 32비트(float32) 정밀도로 다양한 데이터셋과 지표에 대해 평가되었습니다. 평가는 추론 및 사실성, 다국어, STEM 및 코드, 기타 벤치마크 등 다양한 영역에서 진행되었습니다. 특히, E2B (20억 유효 파라미터) 및 E4B (40억 유효 파라미터) 모델의 성능이 각각 PT (Pre-trained) 및 IT (Instruction-tuned) 버전으로 제시되었습니다. 안드로이드 기기(Samsung S25 Ultra)에서의 성능 벤치마크(Prefill, Decode 속도, Time to first token, 모델 크기, 메모리 사용량)도 제공되어 모바일 환경에서의 효율성을 강조합니다.

윤리 및 안전:
* 평가 접근 방식: 구조화된 평가와 내부 레드팀(red-teaming) 테스트를 포함합니다. 아동 안전, 콘텐츠 안전(괴롭힘, 폭력, 혐오 발언 등), 대표성 해악(편향, 고정관념, 부정확성) 등의 범주에 대해 평가되었습니다.
* 평가 결과: 모든 안전 테스트 영역에서 이전 Gemma 모델 대비 아동 안전, 콘텐츠 안전, 대표성 해악 범주에서 안전한 수준의 성능을 보였으며, 정책 위반이 최소화되었습니다. 평가는 안전 필터 없이 모델의 순수 기능을 평가하기 위해 수행되었습니다.
* 한계: 평가가 주로 영어 프롬프트에 집중되었다는 점이 언급되었습니다.

사용 및 제한 사항:
* 예상 용도: 텍스트 생성(시, 스크립트, 코드, 마케팅 문구, 이메일 초안 등), 챗봇 및 대화형 AI, 텍스트 요약, 이미지 데이터 추출 및 요약, 오디오 데이터 추출(음성 인식, 번역 등)에 활용될 수 있습니다. 또한, NLP 및 생성 모델 연구, 언어 학습 도구, 지식 탐색 등 교육 및 연구 분야에서도 활용 가능합니다.
* 제한 사항:
* 학습 데이터: 학습 데이터의 품질과 다양성은 모델의 능력에 큰 영향을 미치며, 데이터의 편향이나 공백은 모델 응답에 한계를 가져올 수 있습니다.
* 컨텍스트 및 작업 복잡성: 명확한 프롬프트와 지침이 있는 작업에 더 능숙하며, 개방적이거나 매우 복잡한 작업에서는 어려움을 겪을 수 있습니다.
* 언어적 모호성 및 뉘앙스: 미묘한 뉘앙스, 비꼬는 표현, 비유적 언어를 이해하는 데 어려움을 겪을 수 있습니다.
* 사실적 정확성: 학습 데이터의 통계적 패턴에 기반하므로 부정확하거나 오래된 사실적 진술을 생성할 수 있습니다.
* 상식: 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.

윤리적 고려사항 및 위험:
* 편향 및 공정성: 대규모 실제 데이터로 학습된 모델은 학습 자료에 내재된 사회문화적 편향을 반영할 수 있습니다. 이를 완화하기 위한 전처리 및 평가가 수행되었습니다.
* 오정보 및 오용: 모델이 허위, 오해의 소지가 있거나 유해한 텍스트를 생성하는 데 오용될 수 있습니다. 책임감 있는 사용을 위한 가이드라인이 제공됩니다.
* 투명성 및 책임성: 모델 카드를 통해 아키텍처, 기능, 제한 사항, 평가 과정에 대한 세부 정보를 요약하여 투명성을 제공합니다.
* 위험 완화: 편향의 지속, 유해 콘텐츠 생성, 악의적인 목적의 오용, 개인 정보 침해 등의 위험에 대한 지속적인 모니터링, 안전 가이드라인, 교육 자료 제공, 개인 정보 보호 기술 준수 등이 권장됩니다. Gemma 모델의 금지된 사용 정책도 명시되어 있습니다.

이점:
Gemma 3n 모델 패밀리는 출시 시점에서 유사한 크기의 모델에 비해 책임 있는 AI 개발을 위해 처음부터 설계된 고성능 오픈 생성형 모델 구현을 제공합니다. 문서에 설명된 벤치마크 평가 지표를 통해 다른 비교 가능한 크기의 오픈 모델 대안보다 우수한 성능을 보여주었습니다.

원본 보기
Hugging Face
Shared by Anonymous