TinyR1-32B-Preview开源推理模型 - 免费使用解决数学、代码和科学难题！

首页

Tinyr1 32B Preview

由 qihoo360 开发

Tiny-R1-32B-Preview 是一个基于 Deepseek-R1-Distill-Qwen-32B 的推理模型，专注于数学、代码和科学领域，性能接近完整版 R1 模型。

大型语言模型

Transformers

开源协议:Apache-2.0 #数学推理优化 #多领域模型融合 #超蒸馏技术

下载量 3,292

发布时间 : 2/24/2025

模型简介

该模型通过监督微调（SFT）和模型融合技术，在数学、编程和科学任务上表现出色，尤其在数学领域超越了一些更大的模型。

模型特点

高性能数学推理

在数学任务（AIME 2024）上表现优于70B模型，接近完整版R1模型。

多领域融合

通过融合数学、编程和科学三个领域的专用模型，实现综合性能提升。

开源训练流程

提供完整的训练与评估流程，以及精选的训练数据集。

模型能力

数学推理

编程任务解答

科学问答

文本生成

使用案例

教育

数学问题求解

求解复杂的数学问题，如积分计算。

在AIME 2024测试中达到78.1分。

编程

编程任务解答

解答编程相关的问题和任务。

在LiveCodeBench测试中达到61.6分。

科学研究

科学问答

回答科学领域的问题。

在GPQA-Diamond测试中达到65.0分。

🚀 Tiny-R1-32B-Preview

Tiny-R1-32B-Preview 是第一代推理模型，在数学方面超越了 70B 模型 Deepseek-R1-Distill-Llama-70B，几乎与完整的 R1 模型相匹配，具有较强的综合性能。

🚀 快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "qihoo360/TinyR1-32B-Preview"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Please reason step by step, and put your final answer within \\boxed{}. Solve the integral:  \[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4000
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

✨ 主要特性

本模型对 Deepseek-R1-Distill-Qwen-32B 在数学、代码和科学三个目标领域进行了监督微调（SFT），并使用 Mergekit 工具合并多个模型，从而展现出强大的综合性能。
在部分基准测试中取得了较高的评估分数。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "qihoo360/TinyR1-32B-Preview"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Please reason step by step, and put your final answer within \\boxed{}. Solve the integral:  \[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4000
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

高级用法

文档未提及高级用法代码示例，故跳过该部分。

📚 详细文档

更新日志

2025 年 4 月 16 日：我们正式开源了 训练数据集 以及完整的 训练和评估流程。
2025 年 3 月 7 日：我们上传了技术报告。论文链接👁️

模型介绍

我们推出了第一代推理模型 Tiny-R1-32B-Preview，该模型在数学方面超越了 70B 模型 Deepseek-R1-Distill-Llama-70B，几乎与完整的 R1 模型相匹配。

我们使用 360-LLaMA-Factory 训练框架，对 Deepseek-R1-Distill-Qwen-32B 在数学、代码和科学三个目标领域进行了监督微调（SFT），生成了三个特定领域的模型。我们以开源数据中的问题为种子，同时由 R1 生成数学、编码和科学任务的响应，为每个领域创建了专门的模型。在此基础上，我们利用 Arcee 团队的 Mergekit 工具合并多个模型，创建了 Tiny-R1-32B-Preview，该模型展现出强大的综合性能。

注意：我们已经修复了 2025 年 3 月 3 日 20:50（北京时间，UTC+8）之前存在的新分词器配置错误。请参考热修复。

评估结果

模型	数学 (AIME 2024)	编码 (LiveCodeBench)	科学 (GPQA-Diamond)
Deepseek-R1-Distill-Qwen-32B	72.6	57.2	62.1
Deepseek-R1-Distill-Llama-70B	70.0	57.5	65.2
Deepseek-R1	79.8	65.9	71.5
Tiny-R1-32B-Preview (我们的模型)	78.1	61.6	65.0

所有分数均以 pass@1 报告。对于 AIME 2024，我们采样 16 个响应；对于 GPQA-Diamond，我们采样 4 个响应，均使用平均总体准确率进行稳定评估。

我们将在三个方向上分别训练的模型合并为一个模型。以下是比较结果：

模型	数学 (AIME 2024)	编码 (LiveCodeBench)	科学 (GPQA-Diamond)
数学模型	73.1	-	-
代码模型	-	63.4	-
科学模型	-	-	64.5
合并模型 (Tiny-R1-32B-Preview)	78.1	61.6	65.0

数据来源

1. 数学

来自 open-r1/OpenR1-Math-220k 的 58.3k 条思维链轨迹，默认子集。

2. 编码

来自 open-thoughts/OpenThoughts-114k 的 19k 条思维链轨迹，编码子集。

3. 科学

8.6k 条思维链轨迹：

来自 simplescaling/data_ablation_full59K 的 2.7k 条思维链轨迹，科学和健康科学子集。
来自 open-thoughts/OpenThoughts-114k 的 4.9k 条思维链轨迹，科学子集。
来自 simplescaling/s1K-1.1 的 1.0k 条思维链轨迹，全部。

开源计划

我们将尽快发布技术报告，并开源我们的训练和评估代码、选定的训练数据和评估日志。我们从开源社区中受益匪浅，因此致力于尽我们所能回馈社区。

注意事项

TinyR1-32B-Preview 是一个实验性研究模型，旨在提升 AI 推理能力。作为预览版，它在一些基准测试中显示出较高的评估分数，但不适合一般用户应用。主要限制包括：

错误的参数配置可能导致重复输出循环，与 R1 类似。我们建议将温度设置为 0.6，top-p 设置为 0.95，与 R1 的配置一致。
模型目前省略了表示推理开始的 <think> 标记，仅输出 </think> 标记来表示思维过程的结束。这将在接下来的版本中尽快解决。
对于简单查询，模型可能会生成过长的推理链。我们正在努力改进。
基准测试覆盖范围有限。我们鼓励用户在更多基准测试上评估模型，我们将继续扩展我们的基准测试结果。
模型需要加强安全措施，以确保可靠和安全的性能。

热修复 (2025 年 3 月 3 日)

2025 年 3 月 3 日 20:50（北京时间，UTC+8），我们更新了分词器。在此更新之前下载我们模型的用户，建议重新下载与分词器相关的配置文件（tokenizer.json、tokenizer_config.json、config.json 和 special_tokens_map.json）。我们的内部测试已验证，此更新解决了用户报告的以下问题：

输出重复。
基准测试性能下降。
生成的标记 ID 超出词汇范围。我们感谢您的反馈，并鼓励您报告任何其他问题。此外，我们正在积极撰写技术报告，并整理相关代码和数据。

贡献者

360 团队: 林孙, 赵光祥, 简小琪, 林伟宏, 朱永福, 贾昌, 张琳琳, 吴金珠, 胡赛尔, 张祥正

北大团队: 吴雨涵, 江子涵, 刘文瑞, 周俊廷, 崔斌, 杨童

引用

@misc{tinyr1proj,
      title={SuperDistillation Achieves Near-R1 Performance with Just 5% of Parameters.}, 
      author={TinyR1 Team},
      year={2025},
      eprint={},
      archivePrefix={},
      primaryClass={},
      url={https://huggingface.co/qihoo360/TinyR1-32B-Preview}, 
}