🚀 Thinkless:大语言模型学会何时思考
Thinkless是一个可学习的框架,它使大语言模型能够根据任务复杂度和模型自身能力,自适应地在短形式和长形式推理之间进行选择。该框架在强化学习范式下进行训练,能有效降低推理语言模型的计算成本。
🚀 快速开始
以下是使用Thinkless模型的快速示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Vinnnf/Thinkless-1.5B-Warmup"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
instruction = "Please reason step by step, and put your final answer within \\boxed{}."
prompt = f"{instruction}\nThe arithmetic mean of 7, 2, $x$ and 10 is 9. What is the value of $x$?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
think_mode = True
if think_mode:
text = f"{text}<think>"
else:
text = f"{text}<short>"
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
num_tokens = len(generated_ids[0])
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(text+response)
print(f"\nThink Mode: {think_mode}")
print(f"Number of tokens: {num_tokens}")
✨ 主要特性
我们提出了Thinkless框架,它具有以下特性:
- 可学习性:使大语言模型能够学习根据任务复杂度和自身能力,自适应地选择短形式或长形式推理。
- 强化学习训练:在强化学习范式下进行训练,使用两个控制令牌(
<short>
用于简洁响应,<think>
用于详细推理)。
- 解耦优化算法:核心是解耦组相对策略优化(DeGRPO)算法,将混合推理的学习目标分解为控制令牌损失和响应损失,稳定训练并防止崩溃。
- 降低计算成本:在多个基准测试中,能够将长链思考的使用减少50% - 90%,显著降低推理语言模型的计算成本。
📚 详细文档
简介
⚠️ 重要提示
大语言模型能否学会何时思考?
我们提出了Thinkless,这是一个可学习的框架,它使大语言模型能够根据任务复杂度和模型自身能力,自适应地在短形式和长形式推理之间进行选择。Thinkless在强化学习范式下进行训练,并使用两个控制令牌:<short>
用于简洁响应,<think>
用于详细推理。我们方法的核心是解耦组相对策略优化(DeGRPO)算法,它将混合推理的学习目标分解为两个部分:(1)控制令牌损失,用于控制推理模式的选择;(2)响应损失,用于提高生成答案的准确性。这种解耦的公式使我们能够对每个目标的贡献进行细粒度控制,稳定训练并有效防止普通GRPO中出现的崩溃现象。从经验上看,在几个基准测试中,如Minerva Algebra、MATH - 500和GSM8K,Thinkless能够将长链思考的使用减少50% - 90%,显著降低了推理语言模型的计算成本。
流程

相关链接
数据集和基础模型
属性 |
详情 |
数据集 |
open-thoughts/OpenThoughts2-1M、Vinnnf/Hybrid-OpenThoughts2-1M-1.5B |
基础模型 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
📄 许可证
本项目采用Apache - 2.0许可证。
📖 引用
如果您觉得这项工作有帮助,请引用以下文献:
@article{fang2025thinkless,
title={Thinkless: LLM Learns When to Think},
author={Fang, Gongfan and Ma, Xinyin and Wang, Xinchao},
journal={arXiv preprint arXiv:2505.13379},
year={2025}
}