模型简介
DeepCoder是一个专注于代码推理的大语言模型,通过强化学习技术优化了长上下文处理能力,适用于编程辅助和代码生成任务
模型特点
强化学习优化
采用改进版GRPO(GRPO+)和DeepScaleR提出的迭代上下文延长技术进行训练
长上下文处理
通过迭代上下文延长技术,模型能有效处理长达64K的上下文
代码推理能力
专注于编程问题的解决和代码生成,在多个编程基准测试中表现优异
模型能力
代码生成
编程问题解决
长上下文处理
文本生成
使用案例
编程辅助
算法问题解决
帮助解决Codeforces等平台上的算法问题
在Codeforces上达到963分(28.5百分位)
代码补全
为开发者提供代码补全建议
在HumanEval+上达到73.0分
教育
编程学习辅助
帮助学生理解和解决编程练习
DeepCoder概述
DeepCoder-1.5B-Preview是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习(RL)技术扩展至长上下文处理能力。
数据
训练数据集包含约24K个独特的问题-测试对,来源包括:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023年5月1日-2024年7月31日)
训练方案
采用改进版GRPO(GRPO+)和DeepScaleR提出的迭代上下文延长技术。
GRPO+
基于DAPO的改进使训练更稳定:
- 离线难度过滤:对编码问题子集进行预筛选,确保训练数据难度适中
- 取消熵损失:避免因熵值指数增长导致的训练崩溃
- 取消KL损失:无需计算参考策略的对数概率,加速训练
- 超长过滤(来自DAPO):屏蔽截断序列的损失,使模型在32K训练后能泛化至64K推理
- 高阈值裁剪(来自DAPO):提高GRPO/PPO替代损失上限,促进探索并稳定熵值
迭代上下文延长
Deepscaler-1.5B-Preview
通过8K→16K→24K训练,在AIME上的表现从33%提升至43%。类似地,Deepcoder-14B-Preview
经16K→32K训练后,在LiveCodeBench(v5)达到58%,64K上下文评估时进一步提升至60.6%。
得益于DAPO的超长过滤技术,DeepCoder比基础蒸馏模型具有更好的长上下文泛化能力。但最大长度限制在16K时,其较长响应常被截断,可能影响评分。
模型 | 16K | 32K | 64K |
---|---|---|---|
DeepCoder-14B-Preview | 45.6 | 57.9 | 60.6 |
DeepSeek-R1-Distill-Qwen-14B | 50.2 | 53.0 | 53.0 |
完整训练方案详见博客文章。
评估
在LiveCodeBench(LCBv5)、Codeforces和HumanEval+等编程基准测试中的表现:
模型 | LCB(v5)(2024/8/1-2025/2/1) | Codeforces评分 | Codeforces百分位 | HumanEval+ |
---|---|---|---|---|
DeepCoder-1.5B-Preview | 25.1 | 963 | 28.5 | 73.0 |
Deepseek-R1-Distill-Qwen-1.5B | 16.9 | 615 | 1.9 | 58.3 |
模型部署
支持主流高性能推理系统:
- vLLM
- Hugging Face文本生成推理(TGI)
- SGLang
- TensorRT-LLM
所有系统均支持OpenAI聊天补全API格式。
许可协议
采用MIT许可证,致力于推动AI技术的开放与普及。该宽松许可确保全球研究者、开发者和爱好者能自由使用、修改和发展本项目,促进AI领域的创新协作。
致谢
- 训练实验基于我们深度修改的Verl开源后训练库
- 1.5B模型使用verl pipeline扩展版训练
- 基础模型为
DeepSeek-R1-Distill-Qwen-1.5B
- 本项目隶属于伯克利天空计算实验室和伯克利人工智能研究院
引用
@misc{deepcoder2025,
title={DeepCoder: 达到O3-mini水平的全开源140亿参数编程模型},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion博客},
year={2025}
}
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98