목록으로
yanolja/YanoljaNEXT-Rosetta-4B-2511 · Hugging Face
Service2025.11.09

yanolja/YanoljaNEXT-Rosetta-4B-2511 · Hugging Face

요약

YanoljaNEXT-Rosetta-4B-2511은 google/gemma-3-4b-pt를 기반으로 미세 조정된 40억 개의 매개변수를 가진 디코더 전용 언어 모델로, JSON, YAML, XML과 같은 구조화된 데이터 번역에 특화되어 있습니다.
이 모델은 30개 이상의 언어를 균등하게 다루도록 학습되었으며, 영어-한국어 번역에서 35.64의 CHrF++ 점수를 기록하며 강력한 번역 성능을 입증했습니다.
주로 구조화된 콘텐츠 번역에 사용되도록 설계되었지만, 비정형 텍스트에서는 성능이 달라질 수 있으며, 간혹 유효하지 않거나 반복적인 출력을 생성할 수 있습니다.

상세 내용

YanoljaNEXT-Rosetta-4B-2511 모델은 google/gemma-3-4b-pt를 기반으로 미세 조정(fine-tuned)된 40억 개의 파라미터를 가진 decoder-only 언어 모델입니다. 이 모델은 Yanolja NEXT에서 개발되었으며, 특히 JSON, YAML, XML과 같은 구조화된 데이터(structured data)를 원본 데이터 구조를 유지하면서 번역하도록 설계되었습니다. 이전 EEVE 모델과 달리 확장된 토크나이저는 사용하지 않고, 오직 Gemma3ForCausalLM 컴포넌트만을 활용합니다.

핵심 방법론 (Core Methodology)
이 모델의 핵심은 합성된 다국어 번역 데이터(synthetic multilingual translation data)를 사용한 미세 조정에 있습니다. 훈련 데이터는 FineWeb EduFineWeb2 코퍼스에서 합성되었으며, 아랍어, 불가리아어, 중국어, 체코어, 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 그리스어, 구자라트어, 히브리어, 힌디어, 헝가리어, 인도네시아어, 이탈리아어, 일본어, 한국어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 슬로바키아어, 스페인어, 스웨덴어, 타갈로그어, 태국어, 터키어, 우크라이나어, 베트남어를 포함한 30개 이상의 언어를 대상으로 균등하게 학습되었습니다.

구조화된 데이터 번역을 위해 모델은 특정 프롬프트 형식에 따라 학습되었습니다. 사용 예시에서 볼 수 있듯이, 모델은 system 역할을 통해 번역 목표 언어, 컨텍스트 정보(예: Context, Tone, Glossary), 그리고 Output format: JSON과 같은 출력 형식 지시를 받습니다. 이는 훈련 과정에서 모델이 이러한 지시를 이해하고, 입력된 구조화된 텍스트(예: JSON 형식의 원본 텍스트)를 지정된 언어로 번역하면서 동시에 원본의 구조(예: JSON 객체의 키-값 쌍)를 그대로 재구성하는 능력을 습득했음을 의미합니다. 즉, 모델은 단순히 텍스트를 번역하는 것을 넘어, 데이터 스키마(data schema)와 같은 구조적 제약을 따르도록 훈련되었습니다. 이를 통해 company_namedescription 같은 필드가 번역 후에도 동일하게 유지되며, 그 값만 한국어로 번역되는 예시와 같은 결과가 가능합니다.

성능 (Performance)
WMT24++ 벤치마크의 영어-한국어 번역 CHrF++ 점수에서 이 모델은 35.64점을 기록하여 openai/gpt-4o (36.08)에 이어 경쟁력 있는 성능을 보여주며, google/gemini-2.5-flash (35.25) 및 google/gemma-3-4b-it (27.53)와 같은 다른 SOTA 모델들을 능가합니다. 4B 파라미터 모델임에도 불구하고 높은 번역 품질을 유지하는 것이 특징입니다.

활용 목적 및 한계 (Intended Uses & Limitations)
이 모델은 제품 카탈로그 현지화, 호텔 리뷰 번역 등과 같이 정확한 구조 유지가 필요한 구조화된 콘텐츠 번역에 특히 적합합니다. 주요 한계점으로는 구조화되지 않은 텍스트에 대한 성능은 가변적일 수 있으며, 경우에 따라 유효하지 않은 JSON 출력, 반복적인 출력 또는 부정확한 번역이 발생할 수 있다는 점이 언급됩니다.

라이선스 (License)
모델은 베이스 모델인 google/gemma-3-4b-ptGemma license를 따릅니다.

참고 문헌 (References)
이 연구는 FineWeb EduFineWeb2와 같은 데이터셋과 Gemma 3 모델을 활용했습니다. 특히 FineWeb2arxiv:2506.20920FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language라는 제목으로 설명되어 있습니다.

이 모델은 한국콘텐츠진흥원(KOCCA)의 2025년도 문화체육관광부(MCST) 지원 과제("디지털-테크 관광 선도 석박사 전문가 양성" 프로젝트)의 일환으로 지원받아 개발되었습니다.

원본 보기
Hugging Face
Shared by Anonymous