🚀 DeepCoder-1.5B-Preview (AWQ 4bit 128g)
🚀 本项目致力于让大语言模型的强化学习(RLLM)更加普及 🌟
🚀 快速开始
本项目暂未提供快速开始的相关内容,你可以参考后续详细文档进行操作。
✨ 主要特性
- 代码推理能力:DeepCoder-1.5B-Preview 是一个代码推理大语言模型,通过分布式强化学习(RL)从 DeepSeek-R1-Distilled-Qwen-1.5B 微调而来,能够处理长上下文的代码推理任务。
- 改进的训练算法:采用改进版的 GRPO(GRPO+)算法,结合迭代上下文扩展技术,提高了模型的训练稳定性和长上下文推理能力。
- 多系统支持:模型可以使用流行的高性能推理系统进行服务,如 vLLM、Hugging Face Text Generation Inference(TGI)、SGLang 和 TensorRT-LLM,并且支持 OpenAI Chat Completions API 格式。
📚 详细文档
DeepCoder 概述
DeepCoder-1.5B-Preview 是一个代码推理大语言模型,它基于 DeepSeek-R1-Distilled-Qwen-1.5B,通过分布式强化学习(RL)进行微调,以处理长上下文的代码推理任务。
数据
我们的训练数据集包含约 24K 个独特的问题 - 测试对,这些数据来自以下来源:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023 年 5 月 1 日 - 2024 年 7 月 31 日)
训练方法
GRPO+
我们通过借鉴 DAPO 的经验,对原始的 GRPO 算法进行了改进,以实现更稳定的训练:
- 离线难度过滤:DAPO 使用在线动态采样,会即时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小,但由于拒绝采样会带来显著的运行时开销。因此,我们对一部分编码问题进行离线难度过滤,以确保训练数据集的难度保持在合适的范围内。
- 无熵损失:我们发现包含熵损失项通常会导致训练不稳定,熵会呈指数级增长,最终导致训练崩溃。为了缓解这个问题,我们完全去除了熵损失。
- 无 KL 损失:去除 KL 损失可以防止大语言模型局限于原始 SFT 模型的信任区域内。同时,这也避免了为参考策略计算对数概率的需要,从而加速了训练。
- 超长过滤(来自 DAPO):为了保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 能够在 32K 上下文的训练下,推广到 64K 上下文的推理。
- 高截断(来自 DAPO):通过提高 GRPO/PPO 替代损失的上限,我们鼓励更多的探索和更稳定的熵。
迭代上下文扩展
我们最初的 Deepscaler-1.5B-Preview
将长上下文训练从 8K 扩展到 16K 再到 24K,在 AIME 上的准确率分别达到 33%、38% 和 43%。同样,Deepcoder-14B-Preview
在 16K 到 32K 的上下文上进行训练,在 LiveCodeBench(v5)上的准确率从 54% 提高到 58%。当在 64K 上下文下进行评估时,DeepCoder-14B-Preview
成功地推广到更长的上下文,准确率达到 60.6%。
由于采用了 DAPO 的超长过滤技术,DeepCoder 在长上下文上的泛化能力优于基础蒸馏模型。然而,当最大长度限制为 16K 时,模型的长响应通常会被截断,这可能会降低其得分。
模型 |
16K |
32K |
64K |
DeepCoder-14B-Preview |
45.6 |
57.9 |
60.6 |
DeepSeek-R1-Distill-Qwen-14B |
50.2 |
53.0 |
53.0 |
评估
我们在多个编码基准测试中对 Deepcoder-1.5B-Preview
进行了评估,包括 LiveCodeBench(LCBv5)、Codeforces 和 HumanEval+。
模型 |
LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日) |
Codeforces 评级 |
Codeforces 百分位数 |
HumanEval+ |
DeepCoder-1.5B-Preview |
25.1 |
963 |
28.5 |
73.0 |
Deepseek-R1-Distill-Qwen-1.5B |
16.9 |
615 |
1.9 |
58.3 |
部署 DeepCoder
我们的模型可以使用以下流行的高性能推理系统进行服务:
- vLLM
- Hugging Face Text Generation Inference(TGI)
- SGLang
- TensorRT-LLM
所有这些系统都支持 OpenAI Chat Completions API 格式。
📄 许可证
本项目采用 MIT 许可证发布,这体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作,让任何人都可以使用、修改和扩展,能够推动人工智能技术的普及。这种宽松的许可证确保了全球的研究人员、开发人员和爱好者可以无限制地利用和扩展我们的工作,促进人工智能社区的创新和合作。
致谢
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}