许可协议:Apache-2.0
库名称:transformers
基础模型:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
模型名称:Tiny-R1-32B-Preview
更新(2025年4月16日)
我们已正式开源训练数据集,以及完整的训练与评估流程。
更新(2025年3月7日)
我们已上传技术报告。论文链接👁️
简介
我们推出第一代推理模型Tiny-R1-32B-Preview,其数学表现超越70B模型Deepseek-R1-Distill-Llama-70B,并接近完整版R1模型。
基于Deepseek-R1-Distill-Qwen-32B,我们在数学、代码和科学三大领域进行监督微调(SFT),使用360-LLaMA-Factory训练框架产出领域专用模型。以开源数据问题为种子,同时由R1生成数学、编程和科学任务的回答,形成各领域专属模型。在此基础上,借助Arcee团队的Mergekit工具融合多模型,最终形成综合性能强劲的Tiny-R1-32B-Preview。
注:我们已修复北京时间2025年3月3日20:50(UTC+8)前存在的tokenizer配置问题,详见热修复说明。
评估
模型 |
数学(AIME 2024) |
编程(LiveCodeBench) |
科学(GPQA-Diamond) |
Deepseek-R1-Distill-Qwen-32B |
72.6 |
57.2 |
62.1 |
Deepseek-R1-Distill-Llama-70B |
70.0 |
57.5 |
65.2 |
Deepseek-R1 |
79.8 |
65.9 |
71.5 |
Tiny-R1-32B-Preview(本模型) |
78.1 |
61.6 |
65.0 |
所有分数均为pass@1指标。
AIME 2024测试采样16次响应,GPQA-Diamond采样4次,均采用平均准确率确保评估稳定性。
我们将三个领域的独立训练模型合并后结果如下:
模型 |
数学(AIME 2024) |
编程(LiveCodeBench) |
科学(GPQA-Diamond) |
数学专用模型 |
73.1 |
- |
- |
编程专用模型 |
- |
63.4 |
- |
科学专用模型 |
- |
- |
64.5 |
融合模型(Tiny-R1-32B-Preview) |
78.1 |
61.6 |
65.0 |
快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "qihoo360/TinyR1-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "请逐步推理,并将最终答案置于\\boxed{}中。求解积分:\[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4000
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
数据
1. 数学
58.3k条思维链数据,源自open-r1/OpenR1-Math-220k默认子集
2. 编程
19k条思维链数据,源自open-thoughts/OpenThoughts-114k编程子集
3. 科学
8.6k条思维链数据,包含:
开源计划
我们将尽快发布技术报告,并开源训练评估代码、精选训练数据及评估日志。受益于开源社区良多,我们愿全力回馈。
注意事项
TinyR1-32B-Preview是推进AI推理能力的实验性研究模型。作为预览版,虽在部分基准测试中表现优异,但不建议用于通用场景。主要限制包括:
- 参数配置不当可能导致类似R1的重复输出循环,建议温度设为0.6、top-p设为0.95(与R1配置一致)
- 当前版本省略思维起始标记
<think>
,仅保留结束标记</think>
,下个版本将修复
- 对简单查询可能生成过长推理链,我们正在改进
- 基准测试覆盖有限,欢迎用户扩展评估,我们将持续更新结果
- 需加强安全措施以确保可靠性能
热修复(2025年3月3日)
北京时间2025年3月3日20:50(UTC+8),我们更新了tokenizer。此前下载模型的用户请重新下载tokenizer相关配置文件(tokenizer.json、tokenizer_config.json、config.json和special_tokens_map.json)。
内部测试证实本次更新修复了以下问题:
- 输出重复
- 基准性能下降
- 生成超出词表范围的token ID
感谢您的反馈,欢迎继续报告问题。我们正积极完善技术报告并整合相关代码与数据。
贡献者
360团队:
孙林、赵广祥、简小琪、林伟宏、朱永福、贾昶、张玲琳、吴金柱、胡赛尔、张向正
北大团队:
吴雨涵、蒋子涵、刘文瑞、周俊廷、崔斌、杨通
引用
@misc{tinyr1proj,
title={超蒸馏技术以5%参数量逼近R1完整性能},
author={TinyR1团队},
year={2025},
eprint={},
archivePrefix={},
primaryClass={},
url={https://huggingface.co/qihoo360/TinyR1-32B-Preview},
}