D

Deepcoder 1.5B Preview Exl2 4.65bpw

由 async0x42 开发
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习技术扩展长上下文处理能力
下载量 14
发布时间 : 4/9/2025
模型介绍
内容详情
替代品

模型简介

DeepCoder是一个专注于代码生成和推理的大语言模型,通过强化学习技术优化了长上下文处理能力,适用于编程辅助和代码生成任务。

模型特点

强化学习优化
采用改进版GRPO算法(GRPO+)与迭代式上下文扩展技术,提升训练稳定性
长上下文处理
支持64K上下文长度,在长代码生成任务中表现优异
高性能代码生成
在LiveCodeBench、Codeforces等编程基准测试中表现优于基础模型

模型能力

代码生成
编程问题解答
代码补全
算法实现

使用案例

编程辅助
竞赛编程
解决Codeforces等编程竞赛题目
Codeforces评分963,百分位28.5%
面试准备
生成HumanEval+等编程面试题的解决方案
HumanEval+得分73.0
教育
编程学习
为学习者提供代码示例和解释

DeepCoder概览

DeepCoder-1.5B-Preview是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型,采用分布式强化学习(RL)技术扩展长上下文处理能力。

数据

训练数据集包含约24K组独特的问题-测试对,源自:

  • Taco-Verified验证集
  • PrimeIntellect SYNTHETIC-1合成数据
  • LiveCodeBench v5 (2023年5月1日-2024年7月31日)

训练方案

采用改进版GRPO算法(GRPO+)与迭代式上下文扩展技术,该技术首次发布于DeepScaleR项目。

GRPO+增强

基于DAPO研究优化原始GRPO算法,提升训练稳定性:

  • 离线难度过滤:DAPO采用动态采样时丢弃全对/全错样本,虽能稳定批次量但增加计算开销。我们改为对编程问题子集进行离线难度筛选,确保训练数据难度适中。
  • 移除熵损失项:实验发现熵损失项易引发训练崩溃(熵值指数增长),故完全移除该约束。
  • 取消KL散度约束:避免模型受限于原始SFT模型的信任区域,同时省去参考策略的概率计算,加速训练。
  • 超长过滤技术(DAPO):对截断序列掩码损失,使模型在32K上下文训练后能泛化至64K推理场景。
  • 高阈值裁剪(DAPO):放宽GRPO/PPO替代损失上限,促进探索行为并稳定熵值。

迭代式上下文扩展

初代Deepscaler-1.5B-Preview采用8K→16K→24K渐进训练,在AIME基准分别达到33→38→43%。类似地,Deepcoder-14B-Preview经16K→32K训练后,在LiveCodeBench(v5)达到54→58%。64K上下文评估时更提升至60.6%。

得益于DAPO超长过滤技术,DeepCoder相比基础蒸馏模型展现更优的长上下文泛化能力。但16K长度限制会截断长响应,可能影响评分。

模型 16K 32K 64K
DeepCoder-14B-Preview 45.6 57.9 60.6
DeepSeek-R1-Distill-Qwen-14B 50.2 53.0 53.0

完整训练方案详见技术博客

性能评估

在LiveCodeBench(LCBv5)、Codeforces、HumanEval+等编程基准测试表现:

模型 LCBv5(2024/8/1-2025/2/1) Codeforces评分 Codeforces百分位 HumanEval+
DeepCoder-1.5B-Preview 25.1 963 28.5 73.0
Deepseek-R1-Distill-Qwen-1.5B 16.9 615 1.9 58.3

模型部署

支持主流高性能推理框架:

  • vLLM
  • Hugging Face文本生成推理(TGI)
  • SGLang
  • TensorRT-LLM

所有框架均兼容OpenAI聊天补全API格式。

开源许可

采用MIT许可协议,秉持AI技术开放共享理念。本作品允许自由使用、修改和二次开发,旨在促进全球AI社区的技术创新与协作。

致谢

引用文献

@misc{deepcoder2025,
  title={DeepCoder: 达到O3-mini水平的全开源140亿参数编程模型},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica, Tianjun Zhang},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion技术博客},
  year={2025}
}