tencent/HY-MT1.5-1.8B · Hugging Face

요약

HY-MT1.5-1.8B는 33개 언어와 5개 민족/방언의 상호 번역을 지원하는 1.8B 매개변수 번역 모델입니다.

이 모델은 동급 모델 중 업계 최고 수준의 성능을 제공하며, 엣지 디바이스 및 실시간 번역 시나리오에 폭넓게 적용 가능합니다.

더 큰 HY-MT1.5-7B 모델과 함께, 이들은 용어 개입, 문맥 번역 및 형식화된 번역과 같은 고급 기능을 지원합니다.

상세 내용

Hunyuan Translation Model Version 1.5는 Tencent에서 개발한 다국어 번역 모델 시리즈입니다. 이 시리즈는 HY-MT1.5-1.8B와 HY-MT1.5-7B 두 가지 주요 모델로 구성되어 있으며, 33개 언어와 5개 소수 민족 및 방언(예: 광둥어, 티베트어, 위구르어 등) 간의 상호 번역을 지원하는 데 중점을 둡니다.

핵심 방법론 및 기능:

모델 아키텍처 및 규모:

HY-MT1.5-7B: 이 모델은 WMT25 챔피언십 모델의 업그레이드 버전으로, 70억 개의 파라미터를 가지고 있습니다. 주석 기반 번역(explanatory translation) 및 혼합 언어 시나리오에 최적화되어 있습니다.
HY-MT1.5-1.8B: 18억 개의 파라미터를 가진 소형 모델로, HY-MT1.5-7B의 파라미터 수보다 훨씬 적지만 (1/3 미만), 이에 필적하는 번역 성능을 제공하며 높은 속도와 품질을 자랑합니다. 이 모델은 양자화(quantization)를 통해 엣지 디바이스(edge devices)에 배포 가능하며 실시간 번역 시나리오에 적합하도록 설계되었습니다. safetensors 형식으로 제공되며, BF16 정밀도(precision)를 사용합니다.

번역 시나리오 특화 기능:

두 모델 모두 다음 세 가지 고급 번역 기능을 지원합니다.

Terminology Intervention (용어 개입): 특정 용어에 대한 번역 규칙을 사전에 제공하여 모델이 일관된 용어 번역을 수행하도록 지시할 수 있습니다. 프롬프트 형식은 다음과 같습니다:

参考下面的翻译： {source_term} 翻译成 {target_term} 将以下文本翻译为{target_language}，注意只需要输出翻译后的结果，不要额外解释： {source_text}

Contextual Translation (문맥 번역): 주어진 문맥 정보를 활용하여 텍스트를 번역함으로써 번역의 정확도와 자연스러움을 향상시킵니다. 프롬프트 형식은 다음과 같습니다:

{context} 参考上面的信息，把下面的文本翻译成{target_language}，注意不需要翻译上文，也不要额外解释： {source_text}

Formatted Translation (형식 유지 번역): 원문 텍스트에 포함된 $<sn>$ 과 같은 특정 형식 태그를 번역문에서도 유지하도록 하여 문서의 구조적 일관성을 보존합니다. 출력은 $<target>str</target>$ 형식으로 이루어집니다. 프롬프트 형식은 다음과 같습니다:

将以下<source></source>之间的文本翻译为中文，注意只需要输出翻译后的结果，不要额外解释，原文中的<sn></sn>标签表示标签内文本包含格式信息，需要在译文中相应的位置尽量保留该标签。输出格式为：<target>str</target> <source>{src_text_with_format}</source>

다국어 지원:

영어(en), 중국어(zh), 프랑스어(fr), 스페인어(es), 일본어(ja), 한국어(ko) 등을 포함한 33개 언어를 지원하며, 특히 전통 중국어(zh-Hant), 광둥어(yue), 티베트어(bo) 등 특정 지역 및 방언 언어에 대한 지원을 명시합니다.

배포 및 활용:

transformers 라이브러리를 사용하여 모델을 로드하고 추론을 수행할 수 있습니다. 권장되는 transformers 버전은 4.56.0입니다.
FP8 양자화 모델을 로드하기 위해서는 config.json 파일의 ignored_layers 필드를 ignore로 변경하고 compressed-tensors 라이브러리를 0.11.0 이상으로 업데이트해야 합니다.
추론 시 권장되는 파라미터는 top_k: 20, top_p: 0.6, repetition_penalty: 1.05, temperature: 0.7입니다. 이 모델은 기본 system_prompt를 사용하지 않습니다.

성능:

HY-MT1.5-1.8B는 동급 모델 중 업계 최고 수준의 성능을 달성하며, 대부분의 상용 번역 API를 능가한다고 주장합니다. 상세한 실험 결과는 관련 Technical Report에서 확인할 수 있습니다.

이 모델은 효율적인 소형 모델(1.8B)과 기능이 풍부한 대형 모델(7B)을 제공하여 다양한 번역 요구 사항과 배포 환경에 유연하게 대응할 수 있도록 설계되었습니다.

#translation #LLM #transformers #Hugging Face #multilingual