Light-R1-7B-DS开源数学模型 - 免费可用，在数学基准测试中表现出色！

首页

Light R1 7B DS

由 qihoo360 开发

Light-R1-7B-DS是基于DeepSeek-R1-Distill-Qwen-7B微调的开源7B数学模型，在AIME24和25等数学基准测试中表现优异。

大型语言模型

Transformers

开源协议:Apache-2.0 #数学推理SOTA #小数据微调 #竞赛题解答

下载量 1,414

发布时间 : 4/25/2025

模型简介

当前开源的7B数学模型中性能最优的模型，通过仅3K SFT数据微调实现SOTA级表现，特别擅长数学推理任务。

模型特点

高效微调

仅使用3K SFT数据微调即达到SOTA性能，证明数据的高效性

数学推理能力

在AIME24、AIME25和GPQA等数学基准测试中表现优异

数据去污染

通过精确匹配和N-gram匹配进行了严格的数据去污染处理

模型能力

数学问题求解

复杂推理

文本生成

使用案例

教育

数学竞赛题解答

解答AIME等数学竞赛题目

在AIME24测试中达到59.1分

数学教育辅助

帮助学生理解复杂数学概念

研究

数学推理研究

作为数学推理能力研究的基准模型

🚀 Light-R1-7B-DS：仅用3K数据打造的SOTA 7B数学模型

Light-R1-7B-DS是目前已知的最先进的开源7B数学模型，在AIME24和AIME25测试中分别取得了59.1和44.3的优异成绩。并且，该模型在未进行任何特定训练的情况下，在GPQA测试中也表现出色。

🚀 快速开始

使用方法与DeepSeek-R1-Distill-Qwen-7B相同。

✨ 主要特性

性能卓越：在AIME24、AIME25和GPQA测试中均取得了领先的成绩。
数据高效：仅使用3K的SFT数据进行进一步训练，充分展示了所发布数据的强大适用性。

📚 详细文档

模型对比

模型	训练基础	发布日期	AIME24	AIME25	GPQA
OpenThinker - 7B	Qwen2.5 - 7B - Instruct	25.2.12	31.3	N/A	42.4
DeepSeek - R1 - Distill - Qwen - 7B	Qwen2.5 - Math - 7B	25.1.20	55.5	39.2	49.1
[Light - R1 - 7B - DS (我们的模型) 🤗](https://huggingface.co/qihoo360/Light - R1 - 7B - DS)	DeepSeek - R1 - Distill - Qwen - 7B	25.3.12	59.1	44.3	49.4
[Light - R1 - 32B (我们的模型) 🤗](https://huggingface.co/qihoo360/Light - R1 - 32B)	Qwen2.5 - 32B - Instruct	25.3.4	76.6	64.6	61.8

技术报告与代码仓库

技术报告
[GitHub页面](https://github.com/Qihoo360/Light - R1)

🔧 技术细节

数据去重

我们仔细评估了多个开源数据集的数据污染情况。虽然在预训练过程中某些污染可能不可避免，但在训练后的基准测试中，数据污染是不可接受的。MATH - 500数据集存在一定程度的污染，有数十个问题完全相同或仅数字不同。AIME 24和25数据集保持完整，但在整合2023年以前的AIME数据时，我们必须特别注意。

Light - R1采用了精确匹配（不包括数字）和N - gram（N = 32）匹配的方法进行了彻底的数据去重。

📄 许可证

本模型采用Apache 2.0许可证。

📚 引用

如果您使用了本模型，请引用以下文献：

@misc{lightr1proj,
      title={Light - R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light - R1}, 
}