deepseek-ai/DeepSeek-R1-0528 · Hugging Face
요약
상세 내용
핵심 방법론 및 개선 사항:
DeepSeek-R1-0528의 가장 중요한 개선점은 복잡한 추론 작업을 처리하는 능력의 비약적인 발전입니다. 이는 AIME 2025 테스트에서 이전 버전의 70% 정확도에서 현재 87.5%로 향상된 것을 통해 입증됩니다. 이러한 진보는 추론 과정에서 모델의 '사고 깊이(thinking depth)'가 심화되었기 때문인데, AIME 테스트 세트에서 이전 모델이 질문당 평균 12K 토큰을 사용한 반면, 새 버전은 평균 23K 토큰을 사용하여 더 많은 사고 과정을 거쳤음을 보여줍니다.
모델의 추론 능력 향상은 단순히 토큰 사용량 증가를 넘어, 훈련 후 알고리즘적 최적화(algorithmic optimization mechanisms during post-training)를 통해 이루어졌습니다. 이는 모델이 문제 해결을 위해 더 심층적인 내부 추론 체인(chain of reasoning)을 구성하고 활용하도록 유도하는 방식으로 이루어진 것으로 보입니다.
추론 능력 외에도, DeepSeek-R1-0528은 환각(hallucination) 비율 감소, 함수 호출(function calling) 지원 강화, 그리고 'vibe coding'을 위한 더 나은 경험을 제공합니다. 모든 모델에 대해 최대 생성 길이는 64K 토큰으로 설정되어 있으며, 벤치마크 평가 시에는 의 온도(temperature), 의 top-p 값, 그리고 pass@1 추정을 위해 쿼리당 16개의 응답을 생성하는 샘플링 전략을 사용했습니다.
평가 결과:
DeepSeek-R1-0528은 MMLU-Redux (93.4 EM), GPQA-Diamond (81.0 Pass@1), LiveCodeBench (73.3 Pass@1), AIME 2025 (87.5 Pass@1) 등 다양한 벤치마크에서 이전 버전에 비해 크게 향상된 점수를 기록했습니다. 특히 코드 관련 벤치마크(Codeforces-Div1 Rating 1930, SWE Verified 57.6% Resolved, Aider-Polyglot 71.6% Acc.)와 수학 벤치마크(AIME 2024 91.4% Pass@1, HMMT 2025 79.4% Pass@1)에서 두드러진 개선을 보였습니다.
DeepSeek-R1-0528-Qwen3-8B 소형 모델:
본 연구에서는 DeepSeek-R1-0528의 사고 체인(chain-of-thought)을 Qwen3 8B Base 모델에 증류(distillation)하여 DeepSeek-R1-0528-Qwen3-8B를 개발했습니다. 이 모델은 AIME 2024에서 Qwen3 8B보다 10.0%p 높은 성능을 달성하며 오픈 소스 모델 중 최고 수준(SOTA)의 성능을 보였고, Qwen3-235B-thinking과 유사한 성능을 나타냈습니다. 이는 추론 모델에 대한 학술 연구 및 소규모 모델 개발에 중요한 기여를 할 것으로 예상됩니다. DeepSeek-R1-0528-Qwen3-8B는 Qwen3-8B와 동일한 아키텍처를 가지지만, DeepSeek-R1-0528과 동일한 토크나이저(tokenizer) 설정을 사용합니다.
사용 권장 사항:
DeepSeek-R1-0528은 이제 시스템 프롬프트(system prompt)를 지원하며, 더 이상 모델을 사고 모드로 전환하기 위해 을 출력 시작 부분에 추가할 필요가 없습니다. 시스템 프롬프트는 该助手为DeepSeek-R1,由深度求索公司创造。 今天是{current date}。와 같은 형식으로 사용됩니다.
이 모델은 MIT 라이선스(License)를 따르며 상업적 사용 및 증류(distillation)를 허용합니다.