E

E1 Math 1.5B

由 Salesforce 开发
E1-Math-1.5B是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的语言模型,支持弹性推理和GRPO方法,适用于预算受限的推演场景。
下载量 295
发布时间 : 5/7/2025
模型介绍
内容详情
替代品

模型简介

该模型通过预算受限的推演策略训练,实现弹性推理,并融入GRPO方法,使模型在思维过程中断时能自适应推理,且无需额外训练即可泛化至未见过的预算约束场景。

模型特点

弹性推理
支持在预算受限的情况下进行推理,适应不同的计算资源限制。
GRPO方法
在思维过程中断时能自适应推理,无需额外训练即可泛化至未见过的预算约束场景。
高性能
在多个词元长度下表现出较高的准确率,尤其在较短词元长度下表现优于基础模型。

模型能力

数学推理
弹性推理
自适应推理

使用案例

学术研究
数学问题求解
用于解决复杂的数学问题,尤其在资源受限的环境中。
在多个词元长度下表现出较高的准确率。
教育
数学辅助教学
帮助学生理解和解决数学问题,提供弹性推理支持。