Light-R1-32B-DS开源数学模型 - 近SOTA水平，少量数据微调实现高性能

首页

Light R1 32B DS

由 qihoo360 开发

Light-R1-32B-DS是一款近SOTA水平的32B数学模型，基于DeepSeek-R1-Distill-Qwen-32B微调，仅使用3K SFT数据即实现高性能。

大型语言模型

Transformers

开源协议:Apache-2.0 #小样本微调 #数学推理 #长链思维训练

下载量 1,136

发布时间 : 3/12/2025

模型简介

该模型是一款高性能32B参数规模的大语言模型，在AIME24和25测试中表现优异，适用于复杂文本生成任务。

模型特点

高效微调

仅使用3K SFT数据即实现接近SOTA的性能表现

严格数据净化

采用精确匹配和N-gram技术进行数据去污染处理

高性能表现

在AIME24和25测试中分别获得78.1和65.9的高分

模型能力

复杂文本生成

长链思维推理

数学问题解答

使用案例

学术研究

数学竞赛题解答

用于解答AIME等数学竞赛题目

在AIME24测试中获得78.1分

教育辅助

复杂问题解答

帮助学生理解复杂数学概念和解题思路

🚀 Light-R1-32B-DS：仅用3K数据打造的接近SOTA的32B数学模型

Light-R1-32B-DS是一个接近SOTA的32B数学模型，在AIME24和AIME25测试中的得分分别达到了78.1和65.9。该模型源自DeepSeek-R1-Distill-Qwen-32B，仅使用我们开源的3K SFT数据进行进一步训练，充分展示了所发布数据的强大适用性。

🚀 快速开始

使用方法与DeepSeek-R1-Distill-Qwen-32B相同。

✨ 主要特性

高性能：在AIME24和AIME25测试中取得了优异的成绩。
数据高效：仅使用3K SFT数据进行训练，体现了数据的强大适用性。

📚 详细文档

模型信息

属性	详情
基础模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
许可证	apache-2.0
库名称	transformers
任务类型	文本生成

模型对比

模型	训练基础	发布日期	AIME24	AIME25	GPQA
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	25.1.20	72.6	54.9	62.1
TinyR1-32B-Preview	DeepSeek-R1-Distill-Qwen-32B	25.2.25	77.1	65.9	65.0
Light-R1-32B-DS (我们的模型) 🤗	DeepSeek-R1-Distill-Qwen-32B	25.3.12	78.1	65.9	68.0
Light-R1-32B (我们的模型) 🤗	Qwen2.5-32B-Instruct	25.3.4	76.6	64.6	61.8
QwQ-32B	N/A	25.3.6	78.5	69.3	67.7

🔧 技术细节

数据去重

我们仔细评估了几个开源数据集的数据污染情况。虽然在预训练过程中某些污染可能不可避免，但在训练后在基准测试中进行比较是不可接受的。MATH-500数据集存在一定程度的污染，有数十个问题完全相同或仅数字不同。AIME 24和25数据集保持完整，但在整合2023年以前的AIME数据时，我们必须特别注意。

Light-R1使用精确匹配（不包括数字）和N-gram（N = 32）匹配进行了彻底的数据去重。

📄 许可证

本项目采用apache-2.0许可证。

📚 引用

如果您使用了本模型或相关技术，请引用以下文献：

@misc{lightr1proj,
      title={Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond}, 
      author={Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang},
      year={2025},
      eprint={},
      archivePrefix={},
      url={https://github.com/Qihoo360/Light-R1}, 
}