Open-RS1开源小型大语言模型 - 强化学习提升1.5B参数推理能力

首页

Open RS1

由 knoveleng 开发

基于强化学习增强的小型大语言模型，专注于提升1.5B参数模型的推理能力

大型语言模型

Transformers

开源协议:MIT #强化学习推理优化 #低成本高效训练 #数学推理增强

下载量 6,229

发布时间 : 3/18/2025

模型简介

该项目探索在资源受限条件下，通过强化学习（RL）增强小型大语言模型（LLMs）的推理能力。采用组相对策略优化（GRPO）算法并利用精选的紧凑数学推理数据集进行训练。

模型特点

高效推理能力提升

通过强化学习微调显著提升推理能力，AMC23准确率从63%升至80%，AIME24达到46.7%

低成本训练

仅需7,000样本，花费42美元，在4块NVIDIA A40 GPU上24小时内完成训练

资源优化

专为资源受限环境设计，相比7B模型大幅降低计算成本

模型能力

数学推理

文本生成

逻辑推理

使用案例

教育

数学问题解答

解决各类数学推理问题

AMC23准确率达80%

研究

小型LLM能力验证

验证强化学习在小规模模型上的应用效果

AIME24得分46.7%，超越o1-preview模型

🚀 开放推理系统（Open RS）项目模型

本项目聚焦于小型大语言模型（LLM）在资源受限条件下，利用强化学习（RL）提升推理能力。通过对 15 亿参数模型 DeepSeek-R1-Distill-Qwen-1.5B 的研究，展示了基于 RL 的微调方法在小型 LLM 中的有效性和成本效益。

属性	详情
基础模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
训练数据集	knoveleng/open-rs、knoveleng/open-s1、knoveleng/open-deepscaler
许可证	MIT
任务类型	文本生成
推理功能	支持
依赖库	transformers

🚀 快速开始

本仓库为 开放推理系统（Open RS） 项目提供模型支持，相关研究发表于论文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t。项目旨在探索在资源受限条件下，利用强化学习（RL）提升小型大语言模型（LLM）的推理能力。

我们聚焦于一个 15 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B，该模型在 4 块 NVIDIA A40 GPU（每块 48GB VRAM）上训练了 24 小时。通过采用分组相对策略优化（GRPO）算法，并利用精心策划的紧凑数学推理数据集，我们进行了三项实验以评估模型的性能和行为。主要发现包括：

推理能力显著提升，例如 AMC23 准确率从 63% 提升至 80%，AIME24 达到 46.7%，优于 o1-preview。
训练效率高，仅使用 7000 个样本，成本为 42 美元，而基线模型的成本则高达数千美元。
存在一些挑战，如优化不稳定和长时间训练的长度限制。

这些结果表明，基于 RL 的微调是小型 LLM 的一种经济有效的方法，使推理能力在资源有限的环境中也能实现。我们开源了代码、模型和数据集，以支持进一步的研究。

更多详细信息，请参考我们的 GitHub 仓库。

✨ 主要特性

性能亮点

Open-RS1：平均得分 53.0%
Open-RS2：平均得分 55.7%，AMC23 达到 80.0%
Open-RS3：平均得分 56.3%，AIME24 达到 46.7%（优于 o1-preview 的 44.6%）
在 MATH-500 得分上具有竞争力；Minerva 落后于 70 亿参数模型。

性能指标

成本效益

我们的方法使用 7000 个样本（总共 42000 个输出），在 4 块 A40 GPU 上训练 24 小时，成本约为 42 美元，相比之下：

70 亿参数模型：Qwen2.5-7B-SimpleRL（1633 美元），Eurus-2-7B-PRIME（1088 美元）
15 亿参数模型：DeepScaleR-1.5B-Preview（3629 美元），Still-3-1.5B-Preview（2268 美元）

70 亿参数模型成本
15 亿参数模型成本

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果本项目对您的工作有帮助，请按以下格式引用：

@misc{dang2025reinforcementlearningreasoningsmall,
      title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't}, 
      author={Quy-Anh Dang and Chris Ngo},
      year={2025},
      eprint={2503.16219},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2503.16219}, 
}