library_name: transformers
tags: []
简介
我们正式发布STILL-3-1.5B-preview——这款慢思考推理模型在AIME基准测试中达到了39.33%的准确率!我们在15亿参数模型上采用强化学习技术,观察到随着训练步数增加,模型性能持续提升。为促进研究复现与学术进步,我们开源了代码、模型及数据。
代码仓库:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
性能评估
我们在MATH、AIME、OMNI和LiveAOPS四个基准上进行了测试。针对MATH和AIME任务,采用温度系数0.6、top-p概率0.95的采样解码策略,每个问题采样64次取平均分。对于OMNI和LiveAOPS(2024年8-11月数据),随机选取整数答案子集以支持自动化评估,并使用贪心搜索解码。经过训练的STILL-3-1.5B-preview模型取得显著提升,AIME任务准确率从28.67%提升至39.33%,相对提升幅度达37.18%。
|
MATH |
AIME |
OMNI |
LiveAOPS |
平均 |
基线模型 |
84.04 |
28.67 |
25.60 |
33.33 |
42.91 |
STILL-3-1.5B-preview |
85.48 |
39.33 |
33.00 |
39.50 |
49.33 |
快速开始
from transformers import AutoTokenizer, AutoModelForCausalLM
from vllm import LLM, SamplingParams
tokenizer = AutoTokenizer.from_pretrained("RUC-AIBOX/STILL-3-1.5B-preview")
model = AutoModelForCausalLM.from_pretrained("RUC-AIBOX/STILL-3-1.5B-preview")
question = "将直角坐标系中的点$(0,3)$转换为极坐标。答案格式为$(r,\\theta)$,其中$r > 0$且$0 \\le \\theta < 2 \\pi$。"
input_prompts = tokenizer.apply_chat_template(
[
{"role": "user", "content": question}],
tokenize=False,
add_generation_prompt=True
)
llm = LLM(model=model_path, tensor_parallel_size=1, dtype='bfloat16')
sampling_params_gs = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=32768, stop=stop_words, seed=42, skip_special_tokens=False)
responses = model.generate(input_prompts, sampling_params)
print(responses[0].outputs[0].text)
参考文献
若对我们的研究有所帮助,请引用以下报告:
@article{Slow_Thinking_with_LLMs_3_Preview,
title={STILL-3-1.5B-preview:通过强化学习增强小模型的慢思考能力},
author={RUCAIBox STILL团队},
url={https://github.com/RUCAIBox/Slow_Thinking_with_LLMs},
year={2025}
}
@article{Slow_Thinking_with_LLMs_1,
title={基于奖励引导树搜索增强大语言模型推理能力},
author={江金浩 and 陈志鹏 and 闵应骅 and 陈杰 and 程晓雪 and 王家鹏 and 唐一如 and 孙浩翔 and 邓佳 and 赵伟欣 and 刘政 and 严冬 and 谢健 and 王仲远 and 文继荣},
journal={arXiv预印本 arXiv:2411.11694},
year={2024}
}
@article{Slow_Thinking_with_LLMs_2,
title={模仿、探索与自我提升:慢思考推理系统复现报告},
author={闵应骅 and 陈志鹏 and 江金浩 and 陈杰 and 邓佳 and 胡译文 and 唐一如 and 王家鹏 and 程晓雪 and 宋华彤 and 赵伟欣 and 刘政 and 王仲远 and 文继荣},
journal={arXiv预印本 arXiv:2412.09413},
year={2024}
}