deepseek-ai/DeepSeek-R1-0528-Qwen3-8B · Hugging Face
요약
상세 내용
특히, AIME 2025 테스트에서는 이전 버전의 70%에서 87.5%로 정확도가 크게 향상되었으며, 이는 추론 과정에서 모델의 사고 깊이(thinking depth)가 향상된 결과입니다. AIME 테스트셋에서 이전 모델은 문제당 평균 12K 토큰을 사용했지만, 새 버전은 평균 23K 토큰을 사용하여 더 심도 있는 추론을 수행함을 나타냅니다. 또한, 이 버전은 환각률(hallucination rate) 감소, 함수 호출(function calling) 지원 강화, 그리고 바이브 코딩(vibe coding) 경험 개선 등의 향상된 기능을 제공합니다.
평가 결과:
DeepSeek-R1-0528은 MMLU-Redux, MMLU-Pro, GPQA-Diamond, Humanity's Last Exam(HLE) 등의 일반(General) 벤치마크와 LiveCodeBench, Codeforces-Div1, SWE Verified, Aider-Polyglot 등의 코드(Code) 벤치마크에서 전반적으로 성능이 향상되었습니다. 수학(Math) 벤치마크에서는 AIME 2024, AIME 2025, HMMT 2025, CNMO 2024 등에서 큰 폭의 개선을 보였습니다. 예를 들어, AIME 2025의 Pass@1 스코어는 70.0에서 87.5로 상승했습니다. 모델은 최대 64K 토큰의 생성 길이를 지원하며, 벤치마크 평가를 위해 온도(temperature)는 , top-p 값은 로 설정하고, 쿼리당 16개의 응답을 생성하여 Pass@1을 추정합니다.
핵심 방법론:
DeepSeek-R1-0528의 주요 개선 사항은 '더 많은 계산 자원 활용'과 '포스트 트레이닝 중 알고리즘 최적화 메커니즘 도입'입니다. 이로 인해 모델의 추론 깊이가 증가하여 복잡한 문제 해결 능력이 향상되었습니다.
더 나아가, DeepSeek-R1-0528-Qwen3-8B는 DeepSeek-R1-0528의 사고 과정(chain-of-thought)을 Qwen3 8B Base 모델로 증류(distilled)하여 포스트 트레이닝을 진행한 결과물입니다. 이 증류(distillation) 과정은 대규모 모델의 추론 전략을 소규모 모델에 전이시키는 핵심적인 방법론으로, 소규모 모델이 대규모 모델과 유사한 추론 능력을 갖도록 훈련하는 데 사용됩니다. 그 결과, DeepSeek-R1-0528-Qwen3-8B는 AIME 2024에서 Qwen3 8B를 +10.0%p 초과하는 86.0의 Pass@1을 달성하며 오픈소스 모델 중 SOTA(State-of-the-Art) 성능을 기록했습니다. 이 모델의 아키텍처는 Qwen3-8B와 동일하지만, DeepSeek-R1-0528과 동일한 토크나이저(tokenizer) 구성을 공유합니다.
사용 및 배포:
DeepSeek-R1은 DeepSeek의 공식 웹사이트(chat.deepseek.com)에서 'DeepThink' 버튼을 켜서 사용할 수 있으며, OpenAI-Compatible API도 제공됩니다(platform.deepseek.com). 로컬에서 실행하는 방법은 DeepSeek-R1 저장소를 참조하면 됩니다. 이전 버전과 달리, DeepSeek-R1-0528은 시스템 프롬프트(System prompt)를 지원하며, 더 이상 모델을 사고 패턴으로 강제하기 위해 을 출력 시작 부분에 추가할 필요가 없습니다. 공식 환경에서는 이 으로 설정되어 있습니다. 파일 업로드와 웹 검색을 위한 프롬프트 템플릿도 제공됩니다. 파일 업로드 템플릿은 다음과 같습니다.
file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""웹 검색 템플릿은 한국어와 영어 쿼리에 따라 다른 형식을 사용하며, 검색 결과(
{search_results}), 현재 날짜({cur_date}), 질문({question})을 포함하고, 답변 시 인용(citation) 규칙을 명시합니다.라이선스:
이 코드 저장소와 DeepSeek-R1 모델 사용은 MIT License를 따릅니다. DeepSeek-R1 시리즈(Base 및 Chat 포함)는 상업적 사용 및 증류(distillation)를 지원합니다.
인용:
이 연구는 다음과 같이 인용될 수 있습니다.
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via\n Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}