목록으로
Paper2025.06.22

EXAONE Deep: Reasoning Enhanced Language Models

요약

본 논문은 수학 및 코딩 벤치마크에서 뛰어난 추론 능력을 보이는 EXAONE Deep 시리즈 (2.4B, 7.8B, 32B)를 소개합니다.
️ EXAONE 3.5 Instruct 모델을 기반으로 SFT, DPO, Online RL 기법과 긴 thought process가 포함된 추론 특화 데이터셋을 활용하여 모델을 fine-tuning했습니다.
EXAONE Deep 모델들은 동급 모델 대비 우수하거나 경쟁력 있는 성능을 보였으며, 모든 모델은 연구 목적으로 공개되어 있습니다.

상세 내용

본 논문은 다양한 추론(reasoning) 태스크에서 우수한 성능을 보이는 EXAONE Deep 시리즈 모델(2.4B, 7.8B, 32B)을 소개합니다. 이 모델들은 EXAONE 3.5 Instruct 모델을 기반으로 Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), 그리고 Online Reinforcement Learning (Online RL) 세 가지 주요 Fine-tuning 기법을 사용하여 추론 능력 향상에 최적화되었습니다.

핵심 방법론 (Core Methodology)

EXAONE Deep 모델의 핵심은 추론 전문 데이터셋과 이를 활용한 학습 방식에 있습니다.

  • 데이터 (Data):
  • * 모델 학습에는 SFT를 위해 1.6M 인스턴스(약 12B 토큰), DPO를 위해 20K 인스턴스, Online RL을 위해 10K 인스턴스의 데이터셋이 사용되었습니다.
    * 이 데이터셋은 "long streams of thought processes"를 포함하도록 특별히 설계되었습니다. 이는 모델이 복잡한 문제를 해결할 때 인간처럼 단계별 사고 과정을 거치도록 유도하기 위함입니다.
    * SFT 데이터셋 예시(Figure 3)에서 볼 수 있듯이, 각 학습 인스턴스는 사용자의 Query에 대해 <thought><thought></thought></thought> 태그 내에서 상세한 사고 과정을 전개하도록 구성됩니다. 이 사고 과정은 "step-by-step logical progression along with reflection, self-checking, and correction"을 포함하며, 최종 답변은 이러한 추론 과정에서 도출된 핵심 내용을 요약하여 자체 완결적으로 제시됩니다. 특히 코드(Code) 도메인 데이터는 다른 도메인에 비해 토큰 길이가 현저히 긴 특징을 보입니다.

  • 학습 (Training):
  • * EXAONE Deep 모델의 기반이 되는 모델은 instruction-following 능력을 가진 EXAONE 3.5 Instruct 모델입니다.
    * 추론 능력 강화를 위해 SFT 및 DPO 데이터는 Figure 3과 같이 특정 템플릿 형식으로 구조화되었습니다. 모델은 이 템플릿에 따라 <thought><thought> 태그 내에서 추론을 수행하고, 최종 답변을 생성합니다.
    * DPO 훈련에는 SimPER [19] 알고리즘이 사용되었고, Online RL에는 LG AI Research가 자체 설계한 GRPO [15] 변형 알고리즘이 적용되었습니다.
    * 훈련은 NVIDIA H100 GPU 클러스터와 NVIDIA NeMo Framework를 활용하여 진행되었으며, 각 모델 크기별 Pretraining 및 Fine-tuning에 사용된 FLOPs가 명시되어 있습니다(Table 1).

    평가 (Evaluation)

    모델 성능 평가는 다양한 벤치마크에서 이루어졌습니다.

  • 벤치마크 (Benchmarks):
  • * 수학(Mathematics): MATH-500, AIME 2024/2025, CSAT Math 2025 (한국 수능 수학)
    * 과학(Science): GPQA Diamond
    * 코딩(Coding): LiveCodeBench (24.08-25.02)
    * 일반 지식(General Knowledge): MMLU, MMLU-Pro
    * CSAT의 경우, 그림 정보는 제외되었으나 텍스트 설명에 대부분 포함되어 영향은 미미하다고 언급되었습니다.

  • 평가 설정 (Evaluation Setup):
  • * 최대 생성 토큰 길이는 32K로 설정되었습니다.
    * 모델 성능의 신뢰성을 위해 pass@kcons@k 지표를 사용했습니다.
    * pass@1은 k개의 응답을 생성한 후 그 중 하나라도 정답이면 성공으로 처리하는 방식이며, Equation 1에 따라 계산됩니다: pass@1=1ki=1kpi\text{pass}@1 = \frac{1}{k} \sum_{i=1}^k p_i. 여기서 pip_iii-번째 응답의 정확성입니다.
    * cons@k는 k개의 응답 중 가장 자주 생성된 응답을 최종 답변으로 선택하는 방식입니다.
    * 샘플링 파라미터는 temperature=0.6temperature = 0.6topp=0.951top-p = 0.951이 사용되었습니다.
    * 평가 프롬프트는 short-answer 질문용 (Figure 4), multiple-choice 질문용 (Figure 5), 코드 생성용 (Figure 6)으로 구분하여 사용되었습니다.

  • 결과 (Experimental Results):
  • * EXAONE Deep 32B 모델은 DeepSeek-R1, QwQ-32B와 같은 선도적인 open-weight 추론 모델과 경쟁적인 성능을 보였으며, DeepSeek-R1의 Distilled 버전인 DeepSeek-R1-Distill-Qwen-32B 및 DeepSeek-R1-Distill-Llama-70B를 능가했습니다.
    * EXAONE Deep 7.8B 모델은 DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Llama-8B와 같은 유사 규모의 open-weight 모델은 물론, 독점 모델인 OpenAI o1-mini보다도 우수한 성능을 보여주었습니다.
    * 가장 작은 모델인 EXAONE Deep 2.4B 또한 DeepSeek-R1-Distill-Qwen-1.5B보다 뛰어난 성능을 나타냈습니다.
    * 전반적으로 EXAONE Deep 모델들은 모든 크기에서 향상된 추론 능력을 입증했습니다.

    한계점 (Limitations)

    EXAONE Deep 모델은 추론 태스크에 특화되어 Fine-tuning되었으므로, 더 넓은 범위의 실제 응용 시나리오에는 instruction-fine-tuned된 EXAONE 3.5 Instruct 모델을 사용하는 것이 권장됩니다.

    결론 (Conclusion)

    본 논문은 SFT, DPO, Online RL과 같은 잘 확립된 기법들을 활용하여 다양한 추론 벤치마크에서 탁월하거나 경쟁적인 성능을 달성한 EXAONE Deep 모델들을 소개했습니다. 현재 이 모델들은 수학, 과학, 코딩과 같이 명확한 정답이 존재하는 도메인의 문제 해결에 주로 활용됩니다. 향후 연구에서는 정답이 불분명하거나 아직 발견되지 않은 영역으로 모델의 역량을 확장하는 것을 목표로 합니다.
    모든 EXAONE Deep 모델은 연구 목적으로 공개되어 있으며, Hugging Face에서 다운로드할 수 있습니다. 모델 사용에 대한 라이선스 정보는 Appendix B에 명시되어 있으며, 연구 목적의 비상업적 이용만 허용됩니다.

    원본 보기
    Arxiv
    Shared by Anonymous