O

Open RS1

由 knoveleng 开发
基于强化学习增强的小型大语言模型,专注于提升1.5B参数模型的推理能力
下载量 6,229
发布时间 : 3/18/2025
模型介绍
内容详情
替代品

模型简介

该项目探索在资源受限条件下,通过强化学习(RL)增强小型大语言模型(LLMs)的推理能力。采用组相对策略优化(GRPO)算法并利用精选的紧凑数学推理数据集进行训练。

模型特点

高效推理能力提升
通过强化学习微调显著提升推理能力,AMC23准确率从63%升至80%,AIME24达到46.7%
低成本训练
仅需7,000样本,花费42美元,在4块NVIDIA A40 GPU上24小时内完成训练
资源优化
专为资源受限环境设计,相比7B模型大幅降低计算成本

模型能力

数学推理
文本生成
逻辑推理

使用案例

教育
数学问题解答
解决各类数学推理问题
AMC23准确率达80%
研究
小型LLM能力验证
验证强化学习在小规模模型上的应用效果
AIME24得分46.7%,超越o1-preview模型