D

Deepcoder 1.5B Preview GGUF

由 Mungert 开发
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
下载量 888
发布时间 : 4/15/2025
模型介绍
内容详情
替代品

模型简介

DeepCoder是一个专注于代码推理的大语言模型,通过强化学习技术优化了长上下文处理能力,适用于编程辅助和代码生成任务

模型特点

强化学习优化
采用改进版GRPO(GRPO+)和DeepScaleR提出的迭代上下文延长技术进行训练
长上下文处理
通过迭代上下文延长技术,模型能有效处理长达64K的上下文
代码推理能力
专注于编程问题的解决和代码生成,在多个编程基准测试中表现优异

模型能力

代码生成
编程问题解决
长上下文处理
文本生成

使用案例

编程辅助
算法问题解决
帮助解决Codeforces等平台上的算法问题
在Codeforces上达到963分(28.5百分位)
代码补全
为开发者提供代码补全建议
在HumanEval+上达到73.0分
教育
编程学习辅助
帮助学生理解和解决编程练习

DeepCoder概述

DeepCoder-1.5B-Preview是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习(RL)技术扩展至长上下文处理能力。

数据

训练数据集包含约24K个独特的问题-测试对,来源包括:

  • Taco-Verified
  • PrimeIntellect SYNTHETIC-1
  • LiveCodeBench v5(2023年5月1日-2024年7月31日)

训练方案

采用改进版GRPO(GRPO+)和DeepScaleR提出的迭代上下文延长技术。

GRPO+

基于DAPO的改进使训练更稳定:

  • 离线难度过滤:对编码问题子集进行预筛选,确保训练数据难度适中
  • 取消熵损失:避免因熵值指数增长导致的训练崩溃
  • 取消KL损失:无需计算参考策略的对数概率,加速训练
  • 超长过滤(来自DAPO):屏蔽截断序列的损失,使模型在32K训练后能泛化至64K推理
  • 高阈值裁剪(来自DAPO):提高GRPO/PPO替代损失上限,促进探索并稳定熵值

迭代上下文延长

Deepscaler-1.5B-Preview通过8K→16K→24K训练,在AIME上的表现从33%提升至43%。类似地,Deepcoder-14B-Preview经16K→32K训练后,在LiveCodeBench(v5)达到58%,64K上下文评估时进一步提升至60.6%。

得益于DAPO的超长过滤技术,DeepCoder比基础蒸馏模型具有更好的长上下文泛化能力。但最大长度限制在16K时,其较长响应常被截断,可能影响评分。

模型 16K 32K 64K
DeepCoder-14B-Preview 45.6 57.9 60.6
DeepSeek-R1-Distill-Qwen-14B 50.2 53.0 53.0

完整训练方案详见博客文章

评估

在LiveCodeBench(LCBv5)、Codeforces和HumanEval+等编程基准测试中的表现:

模型 LCB(v5)(2024/8/1-2025/2/1) Codeforces评分 Codeforces百分位 HumanEval+
DeepCoder-1.5B-Preview 25.1 963 28.5 73.0
Deepseek-R1-Distill-Qwen-1.5B 16.9 615 1.9 58.3

模型部署

支持主流高性能推理系统:

  • vLLM
  • Hugging Face文本生成推理(TGI)
  • SGLang
  • TensorRT-LLM

所有系统均支持OpenAI聊天补全API格式。

许可协议

采用MIT许可证,致力于推动AI技术的开放与普及。该宽松许可确保全球研究者、开发者和爱好者能自由使用、修改和发展本项目,促进AI领域的创新协作。

致谢

引用

@misc{deepcoder2025,
  title={DeepCoder: 达到O3-mini水平的全开源140亿参数编程模型},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion博客},
  year={2025}
}