deepseek-ai/DeepSeek-R1-0528-Qwen3-8B · Hugging Face

요약

DeepSeek-R1-0528 모델은 계산 자원 및 알고리즘 최적화를 통해 추론 깊이를 크게 향상시켜, AIME 2025 테스트에서 70%에서 87.5%로 정확도를 높였으며, O3 및 Gemini 2.5 Pro와 같은 선도 모델에 근접하는 성능을 보였습니다.

DeepSeek-R1-0528-Qwen3-8B는 DeepSeek-R1-0528의 Chain-of-Thought를 증류하여 개발되었으며, Qwen3 8B를 10.0% 초과하며 AIME 2024에서 오픈 소스 모델 중 SOTA 성능을 달성했습니다.

이 업데이트된 모델은 환각률 감소, 함수 호출 지원 강화, 코드 작성 경험 향상과 더불어 추론 모델 연구 및 소규모 모델 개발에 중요한 기여를 할 것으로 기대됩니다.

상세 내용

DeepSeek-R1-0528 모델은 이전 버전에 비해 마이너 업데이트된 버전으로, 계산 자원 증가와 포스트 트레이닝(post-training) 단계에서의 알고리즘 최적화 메커니즘 도입을 통해 추론 능력과 이해의 깊이를 크게 향상시켰습니다. 이 모델은 수학, 프로그래밍, 일반 논리 등 다양한 벤치마크 평가에서 뛰어난 성능을 보여주며, O3 및 Gemini 2.5 Pro와 같은 선두 모델들의 성능에 근접하고 있습니다.

특히, AIME 2025 테스트에서는 이전 버전의 70%에서 87.5%로 정확도가 크게 향상되었으며, 이는 추론 과정에서 모델의 사고 깊이(thinking depth)가 향상된 결과입니다. AIME 테스트셋에서 이전 모델은 문제당 평균 12K 토큰을 사용했지만, 새 버전은 평균 23K 토큰을 사용하여 더 심도 있는 추론을 수행함을 나타냅니다. 또한, 이 버전은 환각률(hallucination rate) 감소, 함수 호출(function calling) 지원 강화, 그리고 바이브 코딩(vibe coding) 경험 개선 등의 향상된 기능을 제공합니다.

평가 결과:
DeepSeek-R1-0528은 MMLU-Redux, MMLU-Pro, GPQA-Diamond, Humanity's Last Exam(HLE) 등의 일반(General) 벤치마크와 LiveCodeBench, Codeforces-Div1, SWE Verified, Aider-Polyglot 등의 코드(Code) 벤치마크에서 전반적으로 성능이 향상되었습니다. 수학(Math) 벤치마크에서는 AIME 2024, AIME 2025, HMMT 2025, CNMO 2024 등에서 큰 폭의 개선을 보였습니다. 예를 들어, AIME 2025의 Pass@1 스코어는 70.0에서 87.5로 상승했습니다. 모델은 최대 64K 토큰의 생성 길이를 지원하며, 벤치마크 평가를 위해 온도(temperature)는 $0.6$ , top-p 값은 $0.95$ 로 설정하고, 쿼리당 16개의 응답을 생성하여 Pass@1을 추정합니다.

핵심 방법론:
DeepSeek-R1-0528의 주요 개선 사항은 '더 많은 계산 자원 활용'과 '포스트 트레이닝 중 알고리즘 최적화 메커니즘 도입'입니다. 이로 인해 모델의 추론 깊이가 증가하여 복잡한 문제 해결 능력이 향상되었습니다.

더 나아가, DeepSeek-R1-0528-Qwen3-8B는 DeepSeek-R1-0528의 사고 과정(chain-of-thought)을 Qwen3 8B Base 모델로 증류(distilled)하여 포스트 트레이닝을 진행한 결과물입니다. 이 증류(distillation) 과정은 대규모 모델의 추론 전략을 소규모 모델에 전이시키는 핵심적인 방법론으로, 소규모 모델이 대규모 모델과 유사한 추론 능력을 갖도록 훈련하는 데 사용됩니다. 그 결과, DeepSeek-R1-0528-Qwen3-8B는 AIME 2024에서 Qwen3 8B를 +10.0%p 초과하는 86.0의 Pass@1을 달성하며 오픈소스 모델 중 SOTA(State-of-the-Art) 성능을 기록했습니다. 이 모델의 아키텍처는 Qwen3-8B와 동일하지만, DeepSeek-R1-0528과 동일한 토크나이저(tokenizer) 구성을 공유합니다.

사용 및 배포:
DeepSeek-R1은 DeepSeek의 공식 웹사이트(chat.deepseek.com)에서 'DeepThink' 버튼을 켜서 사용할 수 있으며, OpenAI-Compatible API도 제공됩니다(platform.deepseek.com). 로컬에서 실행하는 방법은 DeepSeek-R1 저장소를 참조하면 됩니다. 이전 버전과 달리, DeepSeek-R1-0528은 시스템 프롬프트(System prompt)를 지원하며, 더 이상 모델을 사고 패턴으로 강제하기 위해 $<think>\n$ 을 출력 시작 부분에 추가할 필요가 없습니다. 공식 환경에서는 $T_{model}$ 이 $0.6$ 으로 설정되어 있습니다. 파일 업로드와 웹 검색을 위한 프롬프트 템플릿도 제공됩니다. 파일 업로드 템플릿은 다음과 같습니다.

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

웹 검색 템플릿은 한국어와 영어 쿼리에 따라 다른 형식을 사용하며, 검색 결과({search_results}), 현재 날짜({cur_date}), 질문({question})을 포함하고, 답변 시 인용(citation) 규칙을 명시합니다.

라이선스:
이 코드 저장소와 DeepSeek-R1 모델 사용은 MIT License를 따릅니다. DeepSeek-R1 시리즈(Base 및 Chat 포함)는 상업적 사용 및 증류(distillation)를 지원합니다.

인용:
이 연구는 다음과 같이 인용될 수 있습니다.

latex@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
  title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via\n Reinforcement Learning},
  author={DeepSeek-AI},
  year={2025},
  eprint={2501.12948},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2501.12948},
}

#LLM #Reasoning #AI #DeepSeek #Qwen3