목록으로
kakaocorp/kanana-2-30b-a3b-instruct · Hugging Face
Blog2025.11.23

kakaocorp/kanana-2-30b-a3b-instruct · Hugging Face

요약

Kanana-2는 Agentic AI를 위해 설계된 최신 오픈소스 모델로, MLA 및 MoE 아키텍처를 채택하여 적은 활성 파라미터로도 높은 성능과 처리량을 제공합니다.
️ 이 모델은 한국어를 포함한 6개 언어를 지원하고 최대 32,768 토큰의 긴 컨텍스트를 처리하며, 고급 문제 해결을 위한 추론 모델을 포함합니다.
총 30B 파라미터와 3B 활성 파라미터를 가진 Kanana-2는 툴 호출, 복잡한 지시 따르기 및 코딩 등 다양한 벤치마크에서 향상된 성능을 보여줍니다.

상세 내용

Kanana-2는 Agentic AI를 위해 특별히 설계된 최신 오픈 소스 언어 모델 제품군으로, 이전 버전인 32.5B 모델 대비 향상된 성능과 높은 처리량을 제공한다.

핵심 특징 및 아키텍처:
Kanana-2 모델은 MLA(Multi-head Latent Attention) 및 MoE(Mixture of Experts)와 같은 최첨단 아키텍처를 채택하여, 총 30B의 파라미터를 가지지만 실제 활성화되는 파라미터는 3B에 불과하여 효율성을 극대화했다. 모델은 48개의 레이어, 1개의 Dense 레이어, 128개의 Expert, 그리고 이 중 6개의 Selected Expert와 2개의 Shared Expert로 구성된다. 이러한 MoE 아키텍처는 모델이 특정 입력에 대해 가장 적합한 Expert를 동적으로 활성화함으로써 계산 효율성을 높이고 성능을 개선한다. MLA는 전통적인 Multi-head Attention의 변형으로, 잠재 공간(latent space)에서 어텐션을 계산하여 효율성을 높이는 것으로 추정된다.

주요 개선사항:
* Agentic AI 최적화: 도구 호출(tool calling), 복잡한 지시 따르기(complex instruction following), 논리적 추론(logical reasoning) 능력에서 상당한 개선을 이루었다. 특히, Tool Calling 벤치마크인 BFCL-v3(Live)에서 Instruct 모델은 74.30(pass@1)점을, Multi-Turn에서는 35.38점을 기록하며 이전 Kanana-1.5 모델을 크게 능가했다.
* 다국어 지원: 한국어, 영어, 일본어, 중국어, 태국어, 베트남어 등 6개 언어를 지원하며, 특히 한국어 토큰화 효율성이 30% 이상 향상된 새로운 토크나이저를 사용한다.
* 장문 처리 능력: 최대 32,768 토큰의 컨텍스트 길이를 기본적으로 지원하며, YaRN(Yet another RoPE extension)을 적용하여 최대 128K 토큰까지 확장이 가능하다. YaRN은 RoPE(Rotary Positional Embeddings)의 확장 방식으로, 위치 임베딩을 효과적으로 스케일링하여 모델이 더 긴 시퀀스를 처리할 수 있도록 한다. 이를 위해 rope_scaling 파라미터에 {"rope_type":"deepseek_yarn","factor":4.0,"beta_fast":32,"beta_slow":1,"mscale":1.0,"mscale_all_dim":1.0,"original_max_position_embeddings":32768}와 같은 설정을 적용한다.
* 추론 모델(Reasoning Model): kanana-2-30b-a3b-thinking 모델은 심층적인 사고(deliberate thinking)와 추론 능력을 강화하여 특히 어려운 문제 해결에서 뛰어난 성능을 보인다. MMLU-Pro 및 GPQA Diamond와 같은 추론 벤치마크에서 높은 점수를 기록했다.

성능 평가:
Kanana-2는 base, instruct, thinking 세 가지 모델로 제공된다.
* Base 모델: MMLU, BBH 등 일반 벤치마크와 MATH, GSM8K 등 수학 벤치마크에서 이전 버전 Kanana-1.5-32.5b-base와 Qwen3-30B-A3B-Base와 비교하여 경쟁력 있는 성능을 보여준다. 특히 KMMLU, KoSimpleQA, HAE-RAE Bench 등 한국어 관련 벤치마크에서 우수한 성과를 나타냈다.
* Instruct 모델: MT-Bench, KoMT-Bench와 같은 채팅 벤치마크에서 높은 점수를 기록했으며, IFEval, IFBench, Multi-IF, Multi-Challenge 등 지시 따르기(Instruction Following) 벤치마크에서 Kanana-1.5-32.5b-instruct 대비 큰 폭의 개선을 이루었다.
* Reasoning 모델: MMLU-Pro, GPQA Diamond, AIME 등 추론 및 경쟁 수학 벤치마크에서 특히 강화된 면모를 보였다.

데이터 사용:
모델 학습에는 카카오 사용자 데이터가 일절 사용되지 않았다.

라이선스:
모델 가중치는 Kanana License 하에 배포된다.

원본 보기
Hugging Face
Shared by Anonymous