D

Deepcoder 1.5B Preview AWQ

由 adriabama06 开发
DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型,通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。
下载量 72
发布时间 : 4/13/2025
模型介绍
内容详情
替代品

模型简介

DeepCoder-1.5B-Preview是一款专注于代码推理的大型语言模型,通过改进的GRPO+训练方法和迭代上下文延长技术,提升了长上下文处理能力。

模型特点

强化学习微调
采用改进版GRPO+算法进行微调,结合DAPO的见解实现更稳定的训练
长上下文处理
通过迭代上下文延长技术,支持64K上下文长度的推理
4位量化
采用AWQ 4位128g量化技术,提高推理效率
开放许可
采用MIT许可证,促进AI技术的民主化

模型能力

代码生成
长上下文理解
编程问题解答
代码推理

使用案例

编程辅助
编程问题解答
解决各类编程竞赛和面试中的算法问题
在LiveCodeBench(v5)上达到25.1%准确率
代码生成
根据自然语言描述生成功能代码
HumanEval+得分73.0
教育
编程学习辅助
帮助学生理解和解决编程练习

DeepCoder概述

DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型(LLM),通过分布式强化学习(RL)从DeepSeek-R1-Distilled-Qwen-1.5B微调而来,能够处理更长的上下文长度。

数据

我们的训练数据集包含约24K个独特的问题-测试对,来源包括:

  • Taco-Verified
  • PrimeIntellect SYNTHETIC-1
  • LiveCodeBench v5(2023年5月1日至2024年7月31日)

训练方法

我们的训练方法基于改进版的GRPO(GRPO+)和DeepScaleR中引入的迭代上下文延长技术。

GRPO+

我们在原始GRPO算法的基础上结合了DAPO的见解,以实现更稳定的训练:

  • 离线难度过滤:DAPO采用在线动态采样,实时丢弃完全正确或完全错误的样本。虽然这有助于保持稳定的有效批次大小,但由于拒绝采样会引入显著的运行时开销。我们改为对部分编程问题进行离线难度过滤,确保训练数据集保持在合适的难度范围内。
  • 无熵损失:我们发现包含熵损失项常导致训练不稳定,熵值呈指数增长并最终导致训练崩溃。因此,我们完全移除了熵损失。
  • 无KL损失:移除KL损失可以防止LLM局限于原始SFT模型的信任区域。这一调整还避免了计算参考策略的对数概率,从而加速训练。
  • 超长过滤(来自DAPO):为保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这一技术使DeepCoder能够在32K上下文的训练基础上,泛化到64K上下文的推理。
  • 高剪裁(来自DAPO):通过提高GRPO/PPO替代损失的上限,我们鼓励更多探索和更稳定的熵值。

迭代上下文延长

我们的原始模型Deepscaler-1.5B-Preview通过8K→16K→24K的上下文延长训练,在AIME上的得分分别为33→38→43%。类似地,Deepcoder-14B-Preview在16K→32K的训练中,LiveCodeBench(v5)得分达到54→58%。DeepCoder-14B-Preview在64K上下文的评估中成功泛化,得分达到60.6%。

得益于DAPO的超长过滤技术,DeepCoder在长上下文中的泛化能力优于基础蒸馏模型。然而,当最大长度限制为16K时,其较长的响应常被截断,可能影响得分。

模型 16K 32K 64K
DeepCoder-14B-Preview 45.6 57.9 60.6
DeepSeek-R1-Distill-Qwen-14B 50.2 53.0 53.0

更详细的训练方法描述请参阅我们的博客文章

评估

我们在多个编程基准测试中评估Deepcoder-1.5B-Preview,包括LiveCodeBench(LCBv5)、Codeforces和HumanEval+。

模型 LCB (v5)(2024年8月1日-2025年2月1日) Codeforces评分 Codeforces百分位 HumanEval+
DeepCoder-1.5B-Preview 25.1 963 28.5 73.0
Deepseek-R1-Distill-Qwen-1.5B 16.9 615 1.9 58.3

部署DeepCoder

我们的模型可通过以下高性能推理系统部署:

  • vLLM
  • Hugging Face文本生成推理(TGI)
  • SGLang
  • TensorRT-LLM

这些系统均支持OpenAI聊天补全API格式。

许可证

本项目采用MIT许可证发布,体现了我们对开放和可访问AI开发的承诺。我们相信通过免费提供我们的工作,供全球研究人员、开发者和爱好者使用、修改和扩展,可以推动AI技术的民主化。这一宽松许可证确保我们的工作能够无限制地促进AI社区的创新与合作。

致谢

引用

@misc{deepcoder2025,
  title={DeepCoder: 一款完全开源的14B级O3-mini水平编程模型},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion博客},
  year={2025}
}