E1-Math-1.5B开源语言模型 - 预算有限也能用，弹性推理轻松推演

首页

E1 Math 1.5B

由 Salesforce 开发

E1-Math-1.5B是基于DeepSeek-R1-Distilled-Qwen-1.5B微调的语言模型，支持弹性推理和GRPO方法，适用于预算受限的推演场景。

大型语言模型

Transformers

#弹性推理 #预算受限推演 #数学推理

下载量 295

发布时间 : 5/7/2025

模型简介

该模型通过预算受限的推演策略训练，实现弹性推理，并融入GRPO方法，使模型在思维过程中断时能自适应推理，且无需额外训练即可泛化至未见过的预算约束场景。

模型特点

弹性推理

支持在预算受限的情况下进行推理，适应不同的计算资源限制。

GRPO方法

在思维过程中断时能自适应推理，无需额外训练即可泛化至未见过的预算约束场景。

高性能

在多个词元长度下表现出较高的准确率，尤其在较短词元长度下表现优于基础模型。

模型能力

数学推理

弹性推理

自适应推理

使用案例

学术研究

数学问题求解

用于解决复杂的数学问题，尤其在资源受限的环境中。

在多个词元长度下表现出较高的准确率。

教育

数学辅助教学

帮助学生理解和解决数学问题，提供弹性推理支持。

🚀 E1-Math-1.5B语言模型

E1-Math-1.5B是一个基于语言模型的项目，它从DeepSeek-R1-Distilled-Qwen-1.5B微调而来。通过预算受限的滚动策略进行弹性推理训练，并集成到GRPO中，使模型在思考过程被截断时能自适应推理，且无需额外训练就能有效泛化到未见的预算约束。

🚀 快速开始

若要了解详细使用方法，请参考仓库。

✨ 主要特性

E1-Math-1.5B基于DeepSeek-R1-Distilled-Qwen-1.5B微调，具备弹性推理能力。
通过预算受限的滚动策略训练，集成到GRPO中，可自适应推理并有效泛化。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型信息

属性	详情
库名称	transformers
数据集	agentica-org/DeepScaleR-Preview-Dataset
基础模型	deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
许可证	知识共享署名-非商业性使用 4.0 国际许可协议（cc-by-nc-4.0）

性能表现 (Avg@16)

模型	10050 Tokens 准确率 (%)	1488 Tokens 准确率 (%)	1904 Tokens 准确率 (%)	2809 Tokens 准确率 (%)	3700 Tokens 准确率 (%)
DeepScaleR-1.5B	41.0	5.2	9.6	15.8	22.7
E1-Math-1.5B	35.0	13.5	17.5	24.8	27.9

🔧 技术细节

E1-Math-1.5B是从DeepSeek-R1-Distilled-Qwen-1.5B微调得到的语言模型。它通过预算受限的滚动策略进行弹性推理训练，并集成到GRPO中。这种训练方式使得模型在思考过程被截断时能够自适应地进行推理，并且在没有额外训练的情况下，能够有效地将这种推理能力泛化到未见过的预算约束场景中。

📄 许可证

本项目采用知识共享署名-非商业性使用 4.0 国际许可协议（cc-by-nc-4.0）。

📚 引用

如果您使用了本项目，请引用以下论文：

@article{xu2025scalable,
  title={Scalable Chain of Thoughts via Elastic Reasoning},
  author={Xu, Yuhui and Dong, Hanze and Wang, Lei and Sahoo, Doyen and Li, Junnan and Xiong, Caiming},
  journal={arXiv preprint arXiv:2505.05315},
  year={2025}
}

⚠️ 伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的可接受使用政策（AUP）和人工智能可接受使用政策（AI AUP）。