nano-aha-moment-3b开源语言模型 - 免费解决数学推理及倒计时游戏难题

首页

Nano Aha Moment 3b

由 McGill-NLP 开发

一个30亿参数的语言模型，通过强化学习训练用于解决数学推理任务，特别是倒计时游戏。

大型语言模型

Transformers

#数学推理强化学习 #倒计时游戏专用 #GRPO微调

下载量 55

发布时间 : 3/31/2025

模型简介

基于Qwen2.5-3B的语言模型，使用GRPO进行微调，专门用于数学推理任务，特别是倒计时游戏。

模型特点

数学推理优化

专门针对倒计时游戏等数学推理任务进行强化学习训练

结构化推理输出

在<think>标签中展示推理过程，在<answer>标签中提供最终答案

高效训练技术

使用Flash Attention 2、DeepSpeed ZeRO Stage 2和vLLM实现高效训练和推理

模型能力

数学推理

倒计时游戏求解

结构化推理过程展示

使用案例

教育

数学思维训练

用于训练学生解决倒计时游戏等数学问题的能力

可展示完整的解题思路和步骤

游戏

倒计时游戏辅助

帮助玩家解决倒计时游戏中的数学难题

提供多种可能的解决方案

🚀 nano-aha-moment-3b模型卡片

本模型是一个具备30亿参数的语言模型，通过强化学习训练，专门用于解决数学推理任务，尤其是“倒计时游戏”。它基于Qwen2.5 - 3B模型微调而来，在数学推理领域展现出独特的能力和价值。

🚀 快速开始

你可以通过以下链接查看模型的相关信息：https://github.com/McGill-NLP/nano-aha-moment。若要交互式测试模型的推理能力，可使用仓库中的检查点演示笔记本。

✨ 主要特性

针对性训练：专门为解决数学推理任务而设计，特别是“倒计时游戏”，能够利用一组数字创建方程以达到目标值。
推理过程展示：在<think>标签中展示推理过程，并在<answer>标签中给出最终答案。
高效架构：基于Qwen2.5 - 3B架构，采用Flash Attention 2进行高效注意力计算，DeepSpeed ZeRO Stage 2进行内存优化，vLLM进行高效推理。

📦 安装指南

文档未提及具体安装步骤，暂不提供相关内容。

💻 使用示例

基础用法

模型的基础用法是解决“倒计时游戏”问题。以下是使用场景说明：模型会接收一组数字和一个目标值，然后在<think>标签中展示推理过程，在<answer>标签中给出最终答案。你可以通过仓库中的检查点演示笔记本进行交互式测试。

高级用法

文档未提及高级用法相关代码示例，暂不提供相关内容。

📚 详细文档

模型详情

模型描述

这是一个具有30亿参数的语言模型，通过强化学习进行训练，用于解决数学推理任务，特别是“倒计时游戏”。该模型基于Qwen2.5 - 3B，使用GRPO在nanoAhaMoment代码库上进行微调。

属性	详情
开发者	McGill - NLP实验室
模型类型	因果语言模型
语言（NLP）	英语
许可证	MIT
微调基础模型	Qwen/Qwen2.5 - 3B

模型来源

仓库：https://github.com/McGill-NLP/nano-aha-moment
演示：可在仓库的检查点演示笔记本中查看

使用方式

直接使用

该模型旨在解决数学推理任务，特别是“倒计时游戏”，即需要使用一组数字创建方程以达到目标值。模型在<think>标签中展示推理过程，在<answer>标签中给出最终答案。

非预期使用

该模型是专门为数学推理任务训练的，在一般语言任务或训练范围之外的其他领域可能表现不佳。

偏差、风险和局限性

该模型针对特定的数学推理任务进行训练，可能存在以下局限性：

一般语言理解和生成能力有限。
处理“倒计时游戏”格式之外的复杂数学问题时可能存在困难。
在不同类型问题上的推理一致性有待提高。

建议

用户应：

仅将模型用于其训练的“倒计时游戏”任务。
了解模型专注于数学推理的特点。
在将模型应用于其他任务时，考虑其局限性。

训练详情

训练数据

模型在Countdown - Tasks - 3to4数据集上进行训练，该数据集包含“倒计时游戏”的问题陈述，目标是使用一组可用数字和基本算术运算达到目标数字。

训练过程

预处理

训练数据进行了以下预处理：

用于推理指导的系统消息。
“倒计时游戏”的结构化提示模板。
用于推理步骤和答案的特殊标签。

训练超参数

训练模式：bf16混合精度
学习率：1e - 6
批量大小：每次迭代64个回合
优化器：AdamW
KL系数：0.001
温度：1.0

技术规格

模型架构和目标

该模型基于Qwen2.5 - 3B架构，使用：

Flash Attention 2进行高效注意力计算。
DeepSpeed ZeRO Stage 2进行内存优化。
vLLM进行高效推理。

计算基础设施

软件

PyTorch 2.5.1
Transformers 4.48.3
DeepSpeed 0.16.4
vLLM 0.7.3
Flash Attention 2.7.2

🔧 技术细节

模型架构和目标

模型基于Qwen2.5 - 3B架构，采用了一系列先进技术来提升性能。Flash Attention 2的使用使得注意力计算更加高效，能够在处理长序列时减少计算量和内存占用。DeepSpeed ZeRO Stage 2则对内存进行了优化，使得模型在训练和推理过程中能够更有效地利用资源。vLLM的引入进一步提高了推理效率，让模型能够更快地给出结果。

计算基础设施

在软件方面，模型依赖于多个深度学习库。PyTorch 2.5.1作为核心计算框架，提供了强大的张量计算和自动求导功能。Transformers 4.48.3库为模型的构建和训练提供了丰富的工具和预训练模型。DeepSpeed 0.16.4用于分布式训练和优化，vLLM 0.7.3用于高效推理，Flash Attention 2.7.2则加速了注意力机制的计算。

📄 许可证

本模型使用MIT许可证。

📖 引用信息

BibTeX：

@misc{Kazemnejad2025:NanoAhaMoment,
  author       = {Amirhossein Kazemnejad and Milad Aghajohari and Alessandro Sordoni and Aaron Courville and Siva Reddy},
  title        = {Nano Aha! Moment: Single File "RL for LLM" Library},
  year         = {2025},
  howpublished = {\url{https://github.com/McGill-NLP/nano-aha-moment}},
  note         = {GitHub repository}
}