T

Thinkless 1.5B Warmup

由 Vinnnf 开发
无思框架(Thinkless)是一种可学习框架,使大模型能根据任务复杂度和自身能力,自适应选择简短推理或长链推理。
下载量 966
发布时间 : 5/16/2025
模型介绍
内容详情
替代品

模型简介

该框架采用强化学习范式训练,使用两个控制符:<short>触发简略回答,<think>触发详细推理。方法核心是解耦分组相对策略优化算法(DeGRPO),将混合推理的学习目标分解为控制符损失和响应损失。

模型特点

自适应推理
根据任务复杂度自动选择简短推理或长链推理模式
解耦分组相对策略优化
使用DeGRPO算法将学习目标分解为控制符损失和响应损失
高效推理
在基准测试中能减少50%-90%的长链推理使用,显著降低计算成本

模型能力

自适应文本生成
数学推理
问题解答

使用案例

教育
数学问题解答
解决代数、算术等数学问题
在Minerva代数、MATH-500和GSM8K等基准测试中表现良好
研究
推理模式研究
研究大模型的自适应推理能力
验证了模型能有效学习何时使用长链推理