L

Light R1 32B

由 qihoo360 开发
Light-R1-32B是基于Qwen2.5-32B-Instruct训练的数学竞赛专用模型,通过课程式SFT与DPO技术实现超越DeepSeek-R1-Distill的性能,训练成本仅1000美元。
下载量 1,082
发布时间 : 3/4/2025
模型介绍
内容详情
替代品

模型简介

专注于高难度数学竞赛AIME解题的32B参数大语言模型,采用课程式监督微调(SFT)和直接偏好优化(DPO)技术训练,具备强效长链思维能力和数学推理能力。

模型特点

低成本高效训练
通过课程式SFT与DPO技术,仅需1000美元成本即可实现超越70B规模模型的性能
数学竞赛专项优化
针对AIME等数学竞赛题目进行专项训练,在AIME24/25上表现超越同类模型
透明训练路径
公开全部训练数据集和代码,提供可复现的专业领域模型训练方案
强制思考机制
通过硬编码<think>标记强制触发模型思考过程,增强解题逻辑性

模型能力

高难度数学问题求解
多步骤数学推理
竞赛级数学证明
长链逻辑思维

使用案例

教育领域
数学竞赛辅导
用于AIME等数学竞赛的题目解析和解题训练
AIME24得分76.6(64次平均)
数学思维训练
帮助学生培养复杂数学问题的分析和解决能力
研究领域
数学推理研究
作为数学推理能力研究的基准模型
在GPQA钻石级评估中得分61.8