模型简介
模型特点
模型能力
使用案例
DeepCoder概述
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型(LLM),通过分布式强化学习(RL)从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
数据
我们的训练数据集包含约24K个独特的问题-测试对,来源包括:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023年5月1日至2024年7月31日)
训练方法
我们的训练方法基于改进版的GRPO(GRPO+)和DeepScaleR中引入的迭代上下文延长技术。
GRPO+
我们在原始GRPO算法的基础上结合了DAPO的见解,以实现更稳定的训练:
- 离线难度过滤:DAPO采用在线动态采样,实时丢弃完全正确或完全错误的样本。虽然这有助于保持稳定的有效批次大小,但由于拒绝采样会引入显著的运行时开销。我们改为对部分编程问题进行离线难度过滤,确保训练数据集保持在合适的难度范围内。
- 无熵损失:我们发现包含熵损失项常导致训练不稳定,熵值呈指数增长并最终导致训练崩溃。因此,我们完全移除了熵损失。
- 无KL损失:移除KL损失可以防止LLM局限于原始SFT模型的信任区域。这一调整还避免了计算参考策略的对数概率,从而加速训练。
- 超长过滤(来自DAPO):为保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这一技术使DeepCoder能够在32K上下文的训练基础上,泛化到64K上下文的推理。
- 高剪裁(来自DAPO):通过提高GRPO/PPO替代损失的上限,我们鼓励更多探索和更稳定的熵值。
迭代上下文延长
我们的原始模型Deepscaler-1.5B-Preview
通过8K→16K→24K的上下文延长训练,在AIME上的得分分别为33→38→43%。类似地,Deepcoder-14B-Preview
在16K→32K的训练中,LiveCodeBench(v5)得分达到54→58%。DeepCoder-14B-Preview
在64K上下文的评估中成功泛化,得分达到60.6%。
得益于DAPO的超长过滤技术,DeepCoder在长上下文中的泛化能力优于基础蒸馏模型。然而,当最大长度限制为16K时,其较长的响应常被截断,可能影响得分。
模型 | 16K | 32K | 64K |
---|---|---|---|
DeepCoder-14B-Preview | 45.6 | 57.9 | 60.6 |
DeepSeek-R1-Distill-Qwen-14B | 50.2 | 53.0 | 53.0 |
更详细的训练方法描述请参阅我们的博客文章。
评估
我们在多个编程基准测试中评估Deepcoder-1.5B-Preview
,包括LiveCodeBench(LCBv5)、Codeforces和HumanEval+。
模型 | LCB (v5)(2024年8月1日-2025年2月1日) | Codeforces评分 | Codeforces百分位 | HumanEval+ |
---|---|---|---|---|
DeepCoder-1.5B-Preview | 25.1 | 963 | 28.5 | 73.0 |
Deepseek-R1-Distill-Qwen-1.5B | 16.9 | 615 | 1.9 | 58.3 |
部署DeepCoder
我们的模型可通过以下高性能推理系统部署:
- vLLM
- Hugging Face文本生成推理(TGI)
- SGLang
- TensorRT-LLM
这些系统均支持OpenAI聊天补全API格式。
许可证
本项目采用MIT许可证发布,体现了我们对开放和可访问AI开发的承诺。我们相信通过免费提供我们的工作,供全球研究人员、开发者和爱好者使用、修改和扩展,可以推动AI技术的民主化。这一宽松许可证确保我们的工作能够无限制地促进AI社区的创新与合作。
致谢
- 我们的训练实验基于我们深度修改的Verl分支,这是一个开源的后期训练库。
- 值得注意的是,我们使用verl pipeline训练1.5B模型,这是原始verl的扩展。
- 我们的模型基于
DeepSeek-R1-Distill-Qwen-1.5B
训练。 - 我们的工作是在伯克利天空计算实验室和伯克利人工智能研究所的支持下完成的。
引用
@misc{deepcoder2025,
title={DeepCoder: 一款完全开源的14B级O3-mini水平编程模型},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion博客},
year={2025}
}

