O

Openr1 Distill 7B

由 open-r1 开发
OpenR1-Distill-7B是基于Qwen2.5-Math-7B在Mixture-of-Thoughts数据集上后训练的版本,旨在教会语言模型进行逐步推理。
下载量 134
发布时间 : 5/22/2025
模型介绍
内容详情
替代品

模型简介

该模型复现了DeepSeek-R1-Distill-Qwen-7B的推理能力,同时保持完全开放和可复现性,适合研究推理时计算和可验证奖励的强化学习(RLVR)。

模型特点

逐步推理能力
通过Mixture-of-Thoughts数据集训练,模型能够进行复杂的逐步推理。
开放复现性
完全开放的数据集和训练方法,确保结果可复现。
长上下文支持
RoPE基础频率扩展到300k,支持32k上下文的训练。

模型能力

数学问题解答
编程任务解决
科学问题推理
多步推理生成
长文本理解

使用案例

教育
数学问题解答
帮助学生理解和解决复杂的数学问题。
在MATH-500基准测试上达到89.0%的准确率。
研究
推理时计算研究
用于研究推理时计算和可验证奖励的强化学习(RLVR)。
编程
代码生成与理解
帮助开发者生成和理解复杂代码。
在LiveCodeBench v5上达到39.4%的准确率。