DeepCoder-1.5B-Preview开源代码推理模型 - 处理长上下文，免费部署超实用

首页

Deepcoder 1.5B Preview AWQ

由 adriabama06 开发

DeepCoder-1.5B-Preview是一款基于代码推理的大型语言模型，通过分布式强化学习从DeepSeek-R1-Distilled-Qwen-1.5B微调而来，能够处理更长的上下文长度。

大型语言模型

Transformers

英语开源协议:MIT #强化学习微调 #长上下文编程 #代码推理优化

下载量 72

发布时间 : 4/13/2025

模型简介

DeepCoder-1.5B-Preview是一款专注于代码推理的大型语言模型，通过改进的GRPO+训练方法和迭代上下文延长技术，提升了长上下文处理能力。

模型特点

强化学习微调

采用改进版GRPO+算法进行微调，结合DAPO的见解实现更稳定的训练

长上下文处理

通过迭代上下文延长技术，支持64K上下文长度的推理

4位量化

采用AWQ 4位128g量化技术，提高推理效率

开放许可

采用MIT许可证，促进AI技术的民主化

模型能力

代码生成

长上下文理解

编程问题解答

代码推理

使用案例

编程辅助

编程问题解答

解决各类编程竞赛和面试中的算法问题

在LiveCodeBench(v5)上达到25.1%准确率

代码生成

根据自然语言描述生成功能代码

HumanEval+得分73.0

教育

编程学习辅助

帮助学生理解和解决编程练习

🚀 DeepCoder-1.5B-Preview (AWQ 4bit 128g)

🚀 本项目致力于让大语言模型的强化学习（RLLM）更加普及 🌟

🚀 快速开始

本项目暂未提供快速开始的相关内容，你可以参考后续详细文档进行操作。

✨ 主要特性

代码推理能力：DeepCoder-1.5B-Preview 是一个代码推理大语言模型，通过分布式强化学习（RL）从 DeepSeek-R1-Distilled-Qwen-1.5B 微调而来，能够处理长上下文的代码推理任务。
改进的训练算法：采用改进版的 GRPO（GRPO+）算法，结合迭代上下文扩展技术，提高了模型的训练稳定性和长上下文推理能力。
多系统支持：模型可以使用流行的高性能推理系统进行服务，如 vLLM、Hugging Face Text Generation Inference（TGI）、SGLang 和 TensorRT-LLM，并且支持 OpenAI Chat Completions API 格式。

📚 详细文档

DeepCoder 概述

DeepCoder-1.5B-Preview 是一个代码推理大语言模型，它基于 DeepSeek-R1-Distilled-Qwen-1.5B，通过分布式强化学习（RL）进行微调，以处理长上下文的代码推理任务。

数据

我们的训练数据集包含约 24K 个独特的问题 - 测试对，这些数据来自以下来源：

Taco-Verified
PrimeIntellect SYNTHETIC-1
LiveCodeBench v5（2023 年 5 月 1 日 - 2024 年 7 月 31 日）

训练方法

GRPO+

我们通过借鉴 DAPO 的经验，对原始的 GRPO 算法进行了改进，以实现更稳定的训练：

离线难度过滤：DAPO 使用在线动态采样，会即时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小，但由于拒绝采样会带来显著的运行时开销。因此，我们对一部分编码问题进行离线难度过滤，以确保训练数据集的难度保持在合适的范围内。
无熵损失：我们发现包含熵损失项通常会导致训练不稳定，熵会呈指数级增长，最终导致训练崩溃。为了缓解这个问题，我们完全去除了熵损失。
无 KL 损失：去除 KL 损失可以防止大语言模型局限于原始 SFT 模型的信任区域内。同时，这也避免了为参考策略计算对数概率的需要，从而加速了训练。
超长过滤（来自 DAPO）：为了保留长上下文推理能力，我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 能够在 32K 上下文的训练下，推广到 64K 上下文的推理。
高截断（来自 DAPO）：通过提高 GRPO/PPO 替代损失的上限，我们鼓励更多的探索和更稳定的熵。

迭代上下文扩展

我们最初的 Deepscaler-1.5B-Preview 将长上下文训练从 8K 扩展到 16K 再到 24K，在 AIME 上的准确率分别达到 33%、38% 和 43%。同样，Deepcoder-14B-Preview 在 16K 到 32K 的上下文上进行训练，在 LiveCodeBench（v5）上的准确率从 54% 提高到 58%。当在 64K 上下文下进行评估时，DeepCoder-14B-Preview 成功地推广到更长的上下文，准确率达到 60.6%。

由于采用了 DAPO 的超长过滤技术，DeepCoder 在长上下文上的泛化能力优于基础蒸馏模型。然而，当最大长度限制为 16K 时，模型的长响应通常会被截断，这可能会降低其得分。

模型	16K	32K	64K
DeepCoder-14B-Preview	45.6	57.9	60.6
DeepSeek-R1-Distill-Qwen-14B	50.2	53.0	53.0

评估

我们在多个编码基准测试中对 Deepcoder-1.5B-Preview 进行了评估，包括 LiveCodeBench（LCBv5）、Codeforces 和 HumanEval+。

模型	LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日)	Codeforces 评级	Codeforces 百分位数	HumanEval+
DeepCoder-1.5B-Preview	25.1	963	28.5	73.0
Deepseek-R1-Distill-Qwen-1.5B	16.9	615	1.9	58.3

部署 DeepCoder

我们的模型可以使用以下流行的高性能推理系统进行服务：

vLLM
Hugging Face Text Generation Inference（TGI）
SGLang
TensorRT-LLM

所有这些系统都支持 OpenAI Chat Completions API 格式。

📄 许可证

本项目采用 MIT 许可证发布，这体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作，让任何人都可以使用、修改和扩展，能够推动人工智能技术的普及。这种宽松的许可证确保了全球的研究人员、开发人员和爱好者可以无限制地利用和扩展我们的工作，促进人工智能社区的创新和合作。

致谢

我们的训练实验由我们对 Verl 的大幅修改版本提供支持，Verl 是一个开源的训练后处理库。
值得注意的是，我们使用 verl pipeline 对 1.5B 模型进行训练，这是对原始 Verl 的扩展。
我们的模型基于 DeepSeek-R1-Distill-Qwen-1.5B 进行训练。
我们的工作是 Berkeley Sky Computing Lab 和 Berkeley AI Research 的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}