Thinkless-1.5B-Warmup开源模型 - 无思框架让大模型自适应长短推理

首页

Thinkless 1.5B Warmup

由 Vinnnf 开发

无思框架（Thinkless）是一种可学习框架，使大模型能根据任务复杂度和自身能力，自适应选择简短推理或长链推理。

大型语言模型

Transformers

开源协议:Apache-2.0 #自适应推理 #强化学习优化 #数学推理

下载量 966

发布时间 : 5/16/2025

模型简介

该框架采用强化学习范式训练，使用两个控制符：<short>触发简略回答，<think>触发详细推理。方法核心是解耦分组相对策略优化算法（DeGRPO），将混合推理的学习目标分解为控制符损失和响应损失。

模型特点

自适应推理

根据任务复杂度自动选择简短推理或长链推理模式

解耦分组相对策略优化

使用DeGRPO算法将学习目标分解为控制符损失和响应损失

高效推理

在基准测试中能减少50%-90%的长链推理使用，显著降低计算成本

模型能力

自适应文本生成

数学推理

问题解答

使用案例

教育

数学问题解答

解决代数、算术等数学问题

在Minerva代数、MATH-500和GSM8K等基准测试中表现良好

研究

推理模式研究

研究大模型的自适应推理能力

验证了模型能有效学习何时使用长链推理

🚀 Thinkless：大语言模型学会何时思考

Thinkless是一个可学习的框架，它使大语言模型能够根据任务复杂度和模型自身能力，自适应地在短形式和长形式推理之间进行选择。该框架在强化学习范式下进行训练，能有效降低推理语言模型的计算成本。

🚀 快速开始

以下是使用Thinkless模型的快速示例代码：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Vinnnf/Thinkless-1.5B-Warmup"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

instruction = "Please reason step by step, and put your final answer within \\boxed{}."
prompt = f"{instruction}\nThe arithmetic mean of 7, 2, $x$ and 10 is 9. What is the value of $x$?"

messages = [
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

think_mode = True
if think_mode:
    text = f"{text}<think>"
else:
    text = f"{text}<short>"

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
num_tokens = len(generated_ids[0])

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(text+response)
print(f"\nThink Mode: {think_mode}")
print(f"Number of tokens: {num_tokens}")

✨ 主要特性

我们提出了Thinkless框架，它具有以下特性：

可学习性：使大语言模型能够学习根据任务复杂度和自身能力，自适应地选择短形式或长形式推理。
强化学习训练：在强化学习范式下进行训练，使用两个控制令牌（<short>用于简洁响应，<think>用于详细推理）。
解耦优化算法：核心是解耦组相对策略优化（DeGRPO）算法，将混合推理的学习目标分解为控制令牌损失和响应损失，稳定训练并防止崩溃。
降低计算成本：在多个基准测试中，能够将长链思考的使用减少50% - 90%，显著降低推理语言模型的计算成本。

📚 详细文档

简介

⚠️ 重要提示

大语言模型能否学会何时思考？

我们提出了Thinkless，这是一个可学习的框架，它使大语言模型能够根据任务复杂度和模型自身能力，自适应地在短形式和长形式推理之间进行选择。Thinkless在强化学习范式下进行训练，并使用两个控制令牌：<short>用于简洁响应，<think>用于详细推理。我们方法的核心是解耦组相对策略优化（DeGRPO）算法，它将混合推理的学习目标分解为两个部分：（1）控制令牌损失，用于控制推理模式的选择；（2）响应损失，用于提高生成答案的准确性。这种解耦的公式使我们能够对每个目标的贡献进行细粒度控制，稳定训练并有效防止普通GRPO中出现的崩溃现象。从经验上看，在几个基准测试中，如Minerva Algebra、MATH - 500和GSM8K，Thinkless能够将长链思考的使用减少50% - 90%，显著降低了推理语言模型的计算成本。

流程

image/png

属性	详情
论文链接	ArXiv
GitHub仓库	VainF/Thinkless
强化学习模型	Thinkless-1.5B-RL-DeepScaleR
预热模型	Thinkless-1.5B-Warmup
预热数据	Hybrid-OpenThoughts2-1M-1.5B
强化学习数据	agentica-org/DeepScaleR-Preview-Dataset

数据集和基础模型

属性	详情
数据集	open-thoughts/OpenThoughts2-1M、Vinnnf/Hybrid-OpenThoughts2-1M-1.5B
基础模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

📄 许可证

本项目采用Apache - 2.0许可证。

📖 引用

如果您觉得这项工作有帮助，请引用以下文献：

@article{fang2025thinkless,
  title={Thinkless: LLM Learns When to Think},
  author={Fang, Gongfan and Ma, Xinyin and Wang, Xinchao},
  journal={arXiv preprint arXiv:2505.13379},
  year={2025}
}