🚀 nano-aha-moment-3b模型卡片
本模型是一个具备30亿参数的语言模型,通过强化学习训练,专门用于解决数学推理任务,尤其是“倒计时游戏”。它基于Qwen2.5 - 3B模型微调而来,在数学推理领域展现出独特的能力和价值。
🚀 快速开始
你可以通过以下链接查看模型的相关信息:https://github.com/McGill-NLP/nano-aha-moment。若要交互式测试模型的推理能力,可使用仓库中的检查点演示笔记本。
✨ 主要特性
- 针对性训练:专门为解决数学推理任务而设计,特别是“倒计时游戏”,能够利用一组数字创建方程以达到目标值。
- 推理过程展示:在
<think>
标签中展示推理过程,并在<answer>
标签中给出最终答案。
- 高效架构:基于Qwen2.5 - 3B架构,采用Flash Attention 2进行高效注意力计算,DeepSpeed ZeRO Stage 2进行内存优化,vLLM进行高效推理。
📦 安装指南
文档未提及具体安装步骤,暂不提供相关内容。
💻 使用示例
基础用法
模型的基础用法是解决“倒计时游戏”问题。以下是使用场景说明:
模型会接收一组数字和一个目标值,然后在<think>
标签中展示推理过程,在<answer>
标签中给出最终答案。你可以通过仓库中的检查点演示笔记本进行交互式测试。
高级用法
文档未提及高级用法相关代码示例,暂不提供相关内容。
📚 详细文档
模型详情
模型描述
这是一个具有30亿参数的语言模型,通过强化学习进行训练,用于解决数学推理任务,特别是“倒计时游戏”。该模型基于Qwen2.5 - 3B,使用GRPO在nanoAhaMoment代码库上进行微调。
属性 |
详情 |
开发者 |
McGill - NLP实验室 |
模型类型 |
因果语言模型 |
语言(NLP) |
英语 |
许可证 |
MIT |
微调基础模型 |
Qwen/Qwen2.5 - 3B |
模型来源
使用方式
直接使用
该模型旨在解决数学推理任务,特别是“倒计时游戏”,即需要使用一组数字创建方程以达到目标值。模型在<think>
标签中展示推理过程,在<answer>
标签中给出最终答案。
非预期使用
该模型是专门为数学推理任务训练的,在一般语言任务或训练范围之外的其他领域可能表现不佳。
偏差、风险和局限性
该模型针对特定的数学推理任务进行训练,可能存在以下局限性:
- 一般语言理解和生成能力有限。
- 处理“倒计时游戏”格式之外的复杂数学问题时可能存在困难。
- 在不同类型问题上的推理一致性有待提高。
建议
用户应:
- 仅将模型用于其训练的“倒计时游戏”任务。
- 了解模型专注于数学推理的特点。
- 在将模型应用于其他任务时,考虑其局限性。
训练详情
训练数据
模型在Countdown - Tasks - 3to4数据集上进行训练,该数据集包含“倒计时游戏”的问题陈述,目标是使用一组可用数字和基本算术运算达到目标数字。
训练过程
预处理
训练数据进行了以下预处理:
- 用于推理指导的系统消息。
- “倒计时游戏”的结构化提示模板。
- 用于推理步骤和答案的特殊标签。
训练超参数
- 训练模式:bf16混合精度
- 学习率:1e - 6
- 批量大小:每次迭代64个回合
- 优化器:AdamW
- KL系数:0.001
- 温度:1.0
技术规格
模型架构和目标
该模型基于Qwen2.5 - 3B架构,使用:
- Flash Attention 2进行高效注意力计算。
- DeepSpeed ZeRO Stage 2进行内存优化。
- vLLM进行高效推理。
计算基础设施
软件
- PyTorch 2.5.1
- Transformers 4.48.3
- DeepSpeed 0.16.4
- vLLM 0.7.3
- Flash Attention 2.7.2
🔧 技术细节
模型架构和目标
模型基于Qwen2.5 - 3B架构,采用了一系列先进技术来提升性能。Flash Attention 2的使用使得注意力计算更加高效,能够在处理长序列时减少计算量和内存占用。DeepSpeed ZeRO Stage 2则对内存进行了优化,使得模型在训练和推理过程中能够更有效地利用资源。vLLM的引入进一步提高了推理效率,让模型能够更快地给出结果。
计算基础设施
在软件方面,模型依赖于多个深度学习库。PyTorch 2.5.1作为核心计算框架,提供了强大的张量计算和自动求导功能。Transformers 4.48.3库为模型的构建和训练提供了丰富的工具和预训练模型。DeepSpeed 0.16.4用于分布式训练和优化,vLLM 0.7.3用于高效推理,Flash Attention 2.7.2则加速了注意力机制的计算。
📄 许可证
本模型使用MIT许可证。
📖 引用信息
BibTeX:
@misc{Kazemnejad2025:NanoAhaMoment,
author = {Amirhossein Kazemnejad and Milad Aghajohari and Alessandro Sordoni and Aaron Courville and Siva Reddy},
title = {Nano Aha! Moment: Single File "RL for LLM" Library},
year = {2025},
howpublished = {\url{https://github.com/McGill-NLP/nano-aha-moment}},
note = {GitHub repository}
}
👥 模型卡片作者
McGill - NLP实验室
📞 模型卡片联系方式
如有关于此模型卡片的问题,请联系McGill - NLP实验室。