Light-R1-14B-DS开源数学模型 - 免费部署助力解决各类数学难题

首页

Light R1 14B DS

由 qihoo360 开发

Light-R1-14B-DS是一个14B参数的数学SOTA模型，采用强化学习训练，在AIME24/25和GPQA基准测试中表现优异。

大型语言模型

Transformers

开源协议:Apache-2.0 #数学推理SOTA #强化学习优化 #长链思维

下载量 2,890

发布时间 : 3/12/2025

模型简介

这是一个基于DeepSeek-R1-Distill-Qwen-14B的强化学习模型，专注于数学推理和长链思维任务，在多个数学基准测试中创下了14B参数模型的新记录。

模型特点

轻量级算力下的强化学习

在中等规模模型上成功实施强化学习，无需海量算力资源

长链思维能力

在已具备长链思维能力的微调模型上观察到响应长度与奖励分数同步提升

数学推理SOTA

在AIME24/25基准测试中分别取得74.0和60.2的突破性成绩

数据净化

采用精确匹配和N元语法匹配进行严格的数据污染检测

模型能力

数学推理

长链思维任务处理

复杂问题解答

文本生成

使用案例

教育

数学竞赛题解答

用于解答AIME等数学竞赛题目

在AIME24/25基准测试中表现优异

复杂数学问题求解

解决需要长链推理的复杂数学问题

在GPQA基准上未经专项训练即表现优异

研究

强化学习研究

作为中等规模模型强化学习研究的案例

首次在已具备长链思维能力的微调模型上观察到理想现象

🚀 Light-R1-14B-DS：基于强化学习的SOTA 14B数学模型

Light-R1-14B-DS是首个在轻量级预算下，对相近规模且已完成长思维链微调的模型成功进行强化学习训练的开源模型。它也是目前表现最优的14B数学模型，在AIME24和AIME25测试中分别取得了74.0和60.2的成绩，超越了许多32B模型。

模型信息

属性	详情
基础模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
许可证	apache-2.0
任务类型	文本生成
库名称	transformers

模型对比

模型	训练基础	发布日期	AIME24	AIME25	GPQA
OpenThinker-32B	Qwen2.5-32B-Instruct	25.2.12	66.0	50.9	61.6
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	25.1.20	69.7	50.2	59.1
Light-R1-14B-DS (我们的模型) 🤗	DeepSeek-R1-Distill-Qwen-14B	25.3.12	74.0	60.2	61.7
Light-R1-32B (我们的模型) 🤗	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6	61.8

🚀 快速开始

使用方法

使用方法与DeepSeek-R1-Distill-Qwen-14B相同。

✨ 主要特性

Light-R1-14B-DS在强化学习训练方面取得了重要进展，它标志着在复现和推广DeepSeek-R1上迈出了重要一步。在训练过程中，我们观察到了预期的效果：在一个已经完成长思维链微调的模型上，响应长度和奖励分数同时增加（详见wandb日志）。

该模型基于DeepSeek-R1-Distill-Qwen-14B，经过我们的长思维链强化学习后训练，在14B数学模型中达到了新的最优水平，在AIME 24和25测试中分别取得了74.0和60.2的成绩。此外，Light-R1-14B-DS在未进行任何特定训练的情况下，在GPQA测试中也表现出色。

📚 详细文档

数据去重

我们仔细评估了几个开源数据集的数据污染情况。虽然在预训练过程中某些污染可能不可避免，但在后续训练中，在基准测试上进行比较时出现污染是不可接受的。

MATH-500数据集存在一定程度的污染，有数十个问题完全相同或仅数字不同。AIME 24和25数据集保持完整，但在整合2023年以前的AIME数据时，我们必须特别注意。

Light-R1进行了彻底的数据去重，采用了精确匹配（不包括数字）和N-gram（N=32）匹配的方法。

📄 许可证

本项目采用apache-2.0许可证。

📚 引用

如果您使用了本项目，请引用以下文献：

@misc{lightr1proj,
      title={Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}