🚀 Tiny-R1-32B-Preview
Tiny-R1-32B-Preview 是第一代推理模型,在数学方面超越了 70B 模型 Deepseek-R1-Distill-Llama-70B,几乎与完整的 R1 模型相匹配,具有较强的综合性能。
🚀 快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "qihoo360/TinyR1-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Please reason step by step, and put your final answer within \\boxed{}. Solve the integral: \[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4000
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
- 本模型对 Deepseek-R1-Distill-Qwen-32B 在数学、代码和科学三个目标领域进行了监督微调(SFT),并使用 Mergekit 工具合并多个模型,从而展现出强大的综合性能。
- 在部分基准测试中取得了较高的评估分数。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "qihoo360/TinyR1-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Please reason step by step, and put your final answer within \\boxed{}. Solve the integral: \[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4000
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
高级用法
文档未提及高级用法代码示例,故跳过该部分。
📚 详细文档
更新日志
模型介绍
我们推出了第一代推理模型 Tiny-R1-32B-Preview,该模型在数学方面超越了 70B 模型 Deepseek-R1-Distill-Llama-70B,几乎与完整的 R1 模型相匹配。
我们使用 360-LLaMA-Factory 训练框架,对 Deepseek-R1-Distill-Qwen-32B 在数学、代码和科学三个目标领域进行了监督微调(SFT),生成了三个特定领域的模型。我们以开源数据中的问题为种子,同时由 R1 生成数学、编码和科学任务的响应,为每个领域创建了专门的模型。在此基础上,我们利用 Arcee 团队的 Mergekit 工具合并多个模型,创建了 Tiny-R1-32B-Preview,该模型展现出强大的综合性能。
注意:我们已经修复了 2025 年 3 月 3 日 20:50(北京时间,UTC+8)之前存在的新分词器配置错误。请参考 热修复。
评估结果
模型 |
数学 (AIME 2024) |
编码 (LiveCodeBench) |
科学 (GPQA-Diamond) |
Deepseek-R1-Distill-Qwen-32B |
72.6 |
57.2 |
62.1 |
Deepseek-R1-Distill-Llama-70B |
70.0 |
57.5 |
65.2 |
Deepseek-R1 |
79.8 |
65.9 |
71.5 |
Tiny-R1-32B-Preview (我们的模型) |
78.1 |
61.6 |
65.0 |
所有分数均以 pass@1 报告。对于 AIME 2024,我们采样 16 个响应;对于 GPQA-Diamond,我们采样 4 个响应,均使用平均总体准确率进行稳定评估。
我们将在三个方向上分别训练的模型合并为一个模型。以下是比较结果:
模型 |
数学 (AIME 2024) |
编码 (LiveCodeBench) |
科学 (GPQA-Diamond) |
数学模型 |
73.1 |
- |
- |
代码模型 |
- |
63.4 |
- |
科学模型 |
- |
- |
64.5 |
合并模型 (Tiny-R1-32B-Preview) |
78.1 |
61.6 |
65.0 |
数据来源
1. 数学
来自 open-r1/OpenR1-Math-220k 的 58.3k 条思维链轨迹,默认子集。
2. 编码
来自 open-thoughts/OpenThoughts-114k 的 19k 条思维链轨迹,编码子集。
3. 科学
8.6k 条思维链轨迹:
开源计划
我们将尽快发布技术报告,并开源我们的训练和评估代码、选定的训练数据和评估日志。我们从开源社区中受益匪浅,因此致力于尽我们所能回馈社区。
注意事项
TinyR1-32B-Preview 是一个实验性研究模型,旨在提升 AI 推理能力。作为预览版,它在一些基准测试中显示出较高的评估分数,但不适合一般用户应用。主要限制包括:
- 错误的参数配置可能导致重复输出循环,与 R1 类似。我们建议将温度设置为 0.6,top-p 设置为 0.95,与 R1 的配置一致。
- 模型目前省略了表示推理开始的
<think>
标记,仅输出 </think>
标记来表示思维过程的结束。这将在接下来的版本中尽快解决。
- 对于简单查询,模型可能会生成过长的推理链。我们正在努力改进。
- 基准测试覆盖范围有限。我们鼓励用户在更多基准测试上评估模型,我们将继续扩展我们的基准测试结果。
- 模型需要加强安全措施,以确保可靠和安全的性能。
热修复 (2025 年 3 月 3 日)
2025 年 3 月 3 日 20:50(北京时间,UTC+8),我们更新了分词器。在此更新之前下载我们模型的用户,建议重新下载与分词器相关的配置文件(tokenizer.json、tokenizer_config.json、config.json 和 special_tokens_map.json)。
我们的内部测试已验证,此更新解决了用户报告的以下问题:
- 输出重复。
- 基准测试性能下降。
- 生成的标记 ID 超出词汇范围。
我们感谢您的反馈,并鼓励您报告任何其他问题。此外,我们正在积极撰写技术报告,并整理相关代码和数据。
贡献者
360 团队:
林孙,
赵光祥,
简小琪,
林伟宏,
朱永福,
贾昌,
张琳琳,
吴金珠,
胡赛尔,
张祥正
北大团队:
吴雨涵,
江子涵,
刘文瑞,
周俊廷,
崔斌,
杨童
引用
@misc{tinyr1proj,
title={SuperDistillation Achieves Near-R1 Performance with Just 5% of Parameters.},
author={TinyR1 Team},
year={2025},
eprint={},
archivePrefix={},
primaryClass={},
url={https://huggingface.co/qihoo360/TinyR1-32B-Preview},
}
🔧 技术细节
文档未提供具体的技术实现细节,故跳过该章节。
📄 许可证
属性 |
详情 |
许可证 |
Apache-2.0 |
库名称 |
transformers |
基础模型 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |