Deepseek-R1 모델


새로운 DeepSeek-R1 모델이 나왔다. Huggingface

성능 개선 사항들

Image

코딩 실력이 많이 향상되었다고 한다.

  • R1은 이제 Artificial Analysis Coding Index에서 Gemini 2.5 Pro랑 비슷한 수준이고, o4-mini (high)랑 o3만 R1보다 우위를 보인다.

더 많은 토큰 사용량

  • R1-0528은 Artificial Analysis Intelligence Index 평가를 끝내는 데 9,900만 개 토큰을 썼는데, 이건 원래 R1이 썼던 7,100만 개보다 40%나 더 많이 쓴 결과다.
  • 즉, 새로운 R1이 더 오래 생각한다는 뜻이다. 근데 이게 제일 많은 건 아니고, Gemini 2.5 Pro는 R1-0528보다 30%나 더 많은 토큰을 쓴다고 한다.

DeepSeek-R1-0528-Qwen3-8B

DeepSeek-R1-0528의 chain-of-thought(추론 과정)을 Qwen3 8B Base에 distillation해서 DeepSeek-R1-0528-Qwen3-8B라는 모델도 만들었다. 이 모델은 AIME 2024 벤치마크에서 오픈소스 모델 중 SOTA(최고 성능)를 달성했고, Qwen3 8B보다 10% 더 좋은 성능을 보였다. 심지어 Qwen3-235B-thinking이랑도 비슷한 수준이다.




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • 학습할때 메모리가 터진다고? Cut Your Losses!
  • GRPO 대신 DAPO: RL 최적화로 LLM 추론 능력 끌어올리기
  • DeepSeek-V3 기술 요약
  • python accelerate 라이브러리 함수 조사기
  • Multi-Head Latent Attention