license: mit
library_name: transformers
DeepSeek-R1
论文链接👁️
1. 简介
我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。
DeepSeek-R1-Zero是通过大规模强化学习(RL)训练而成,无需监督微调(SFT)作为初步步骤,在推理方面表现出色。
通过RL,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。
然而,DeepSeek-R1-Zero也面临诸如无限重复、可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,
我们推出了DeepSeek-R1,它在RL之前加入了冷启动数据。
DeepSeek-R1在数学、代码和推理任务上的表现与OpenAI-o1相当。
为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1蒸馏出的六款密集模型。DeepSeek-R1-Distill-Qwen-32B在各种基准测试中超越了OpenAI-o1-mini,为密集模型创造了新的最先进成果。
注意:在本地运行DeepSeek-R1系列模型之前,我们建议您查阅使用建议部分。
2. 模型概述
后训练:基于大规模强化学习的基座模型
-
我们直接在基座模型上应用强化学习(RL),而无需依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)来解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长CoT等能力,为研究社区树立了重要里程碑。值得注意的是,这是首个验证LLM推理能力可以仅通过RL激励而无需SFT的开源研究。这一突破为该领域的未来发展铺平了道路。
-
我们介绍了开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个SFT阶段,作为模型推理和非推理能力的种子。我们相信这一流程将通过创建更好的模型使行业受益。
蒸馏:小模型同样强大
- 我们证明了大模型的推理模式可以蒸馏到小模型中,相比在小模型上通过RL发现的推理模式,性能更优。开源的DeepSeek-R1及其API将有助于研究社区未来蒸馏出更好的小模型。
- 利用DeepSeek-R1生成的推理数据,我们对研究社区广泛使用的几款密集模型进行了微调。评估结果表明,蒸馏后的小型密集模型在基准测试中表现优异。我们向社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B蒸馏检查点。
3. 模型下载
DeepSeek-R1模型
DeepSeek-R1-Zero和DeepSeek-R1基于DeepSeek-V3-Base训练。
有关模型架构的更多详情,请参阅DeepSeek-V3仓库。
DeepSeek-R1-Distill模型
DeepSeek-R1-Distill模型基于开源模型微调,使用了DeepSeek-R1生成的样本。
我们略微修改了它们的配置和分词器。请使用我们的设置运行这些模型。
4. 评估结果
DeepSeek-R1评估
对于所有模型,最大生成长度设置为32,768个token。对于需要采样的基准测试,我们使用温度为$0.6$,top-p值为$0.95$,每个查询生成64个响应以估计pass@1。
类别 |
基准测试(指标) |
Claude-3.5-Sonnet-1022 |
GPT-4o 0513 |
DeepSeek V3 |
OpenAI o1-mini |
OpenAI o1-1217 |
DeepSeek R1 |
|
架构 |
- |
- |
MoE |
- |
- |
MoE |
|
激活参数量 |
- |
- |
37B |
- |
- |
37B |
|
总参数量 |
- |
- |
671B |
- |
- |
671B |
英语 |
MMLU (Pass@1) |
88.3 |
87.2 |
88.5 |
85.2 |
91.8 |
90.8 |
|
MMLU-Redux (EM) |
88.9 |
88.0 |
89.1 |
86.7 |
- |
92.9 |
|
MMLU-Pro (EM) |
78.0 |
72.6 |
75.9 |
80.3 |
- |
84.0 |
|
DROP (3-shot F1) |
88.3 |
83.7 |
91.6 |
83.9 |
90.2 |
92.2 |
|
IF-Eval (Prompt Strict) |
86.5 |
84.3 |
86.1 |
84.8 |
- |
83.3 |
|
GPQA-Diamond (Pass@1) |
65.0 |
49.9 |
59.1 |
60.0 |
75.7 |
71.5 |
|
SimpleQA (正确率) |
28.4 |
38.2 |
24.9 |
7.0 |
47.0 |
30.1 |
|
FRAMES (准确率) |
72.5 |
80.5 |
73.3 |
76.9 |
- |
82.5 |
|
AlpacaEval2.0 (LC-winrate) |
52.0 |
51.1 |
70.0 |
57.8 |
- |
87.6 |
|
ArenaHard (GPT-4-1106) |
85.2 |
80.4 |
85.5 |
92.0 |
- |
92.3 |
代码 |
LiveCodeBench (Pass@1-COT) |
33.8 |
34.2 |
- |
53.8 |
63.4 |
65.9 |
|
Codeforces (百分位) |
20.3 |
23.6 |
58.7 |
93.4 |
96.6 |
96.3 |
|
Codeforces (评分) |
717 |
759 |
1134 |
1820 |
2061 |
2029 |
|
SWE Verified (解决率) |
50.8 |
38.8 |
42.0 |
41.6 |
48.9 |
49.2 |
|
Aider-Polyglot (准确率) |
45.3 |
16.0 |
49.6 |
32.9 |
61.7 |
53.3 |
数学 |
AIME 2024 (Pass@1) |
16.0 |
9.3 |
39.2 |
63.6 |
79.2 |
79.8 |
|
MATH-500 (Pass@1) |
78.3 |
74.6 |
90.2 |
90.0 |
96.4 |
97.3 |
|
CNMO 2024 (Pass@1) |
13.1 |
10.8 |
43.2 |
67.6 |
- |
78.8 |
中文 |
CLUEWSC (EM) |
85.4 |
87.9 |
90.9 |
89.9 |
- |
92.8 |
|
C-Eval (EM) |
76.7 |
76.0 |
86.5 |
68.9 |
- |
91.8 |
|
C-SimpleQA (正确率) |
55.4 |
58.7 |
68.0 |
40.3 |
- |
63.7 |
蒸馏模型评估
模型 |
AIME 2024 pass@1 |
AIME 2024 cons@64 |
MATH-500 pass@1 |
GPQA Diamond pass@1 |
LiveCodeBench pass@1 |
CodeForces 评分 |
GPT-4o-0513 |
9.3 |
13.4 |
74.6 |
49.9 |
32.9 |
759 |
Claude-3.5-Sonnet-1022 |
16.0 |
26.7 |
78.3 |
65.0 |
38.9 |
717 |
o1-mini |
63.6 |
80.0 |
90.0 |
60.0 |
53.8 |
1820 |
QwQ-32B-Preview |
44.0 |
60.0 |
90.6 |
54.5 |
41.9 |
1316 |
DeepSeek-R1-Distill-Qwen-1.5B |
28.9 |
52.7 |
83.9 |
33.8 |
16.9 |
954 |
DeepSeek-R1-Distill-Qwen-7B |
55.5 |
83.3 |
92.8 |
49.1 |
37.6 |
1189 |
DeepSeek-R1-Distill-Qwen-14B |
69.7 |
80.0 |
93.9 |
59.1 |
53.1 |
1481 |
DeepSeek-R1-Distill-Qwen-32B |
72.6 |
83.3 |
94.3 |
62.1 |
57.2 |
1691 |
DeepSeek-R1-Distill-Llama-8B |
50.4 |
80.0 |
89.1 |
49.0 |
39.6 |
1205 |
DeepSeek-R1-Distill-Llama-70B |
70.0 |
86.7 |
94.5 |
65.2 |
57.5 |
1633 |
5. 聊天网站与API平台
您可以在DeepSeek的官方网站上与DeepSeek-R1聊天:chat.deepseek.com,并开启“DeepThink”按钮。
我们还提供OpenAI兼容的API平台:platform.deepseek.com
6. 本地运行方法
DeepSeek-R1模型
请访问DeepSeek-V3仓库获取有关本地运行DeepSeek-R1的更多信息。
注意:Hugging Face的Transformers尚未直接支持。
DeepSeek-R1-Distill模型
DeepSeek-R1-Distill模型可以像Qwen或