T

Thinkless 1.5B RL DeepScaleR

由 Vinnnf 开发
Thinkless是一个通过强化学习训练的大语言模型,能够自适应选择简答或长链推理模式,显著降低推理计算成本。
下载量 197
发布时间 : 5/16/2025
模型介绍
内容详情
替代品

模型简介

Thinkless框架通过解耦分组相对策略优化算法(DeGRPO)训练大语言模型,使其能够根据问题复杂度自适应选择简答(<short>标记)或长链推理(<think>标记)模式。

模型特点

自适应推理模式
模型能根据问题复杂度自动选择简答或长链推理模式,减少50%-90%的长链推理使用。
解耦分组相对策略优化
采用DeGRPO算法将混合推理目标分解为控制标记损失和响应损失,避免原始GRPO的坍缩问题。
高效推理
在保持准确性的同时显著降低推理计算成本,适用于需要快速响应的应用场景。

模型能力

数学推理
问题解答
自适应推理模式选择

使用案例

教育
数学问题解答
解答从简单到复杂的数学问题,根据问题难度自动选择简答或详细推理模式。
在Minerva Algebra、MATH-500和GSM8K等基准测试中表现良好
智能助手
高效问答系统
构建能够根据问题复杂度自适应调整回答长度的智能问答系统。
减少不必要的长链推理,提高响应速度