N

Nano Aha Moment 3b

由 McGill-NLP 开发
一个30亿参数的语言模型,通过强化学习训练用于解决数学推理任务,特别是倒计时游戏。
下载量 55
发布时间 : 3/31/2025

模型简介

基于Qwen2.5-3B的语言模型,使用GRPO进行微调,专门用于数学推理任务,特别是倒计时游戏。

模型特点

数学推理优化
专门针对倒计时游戏等数学推理任务进行强化学习训练
结构化推理输出
在<think>标签中展示推理过程,在<answer>标签中提供最终答案
高效训练技术
使用Flash Attention 2、DeepSpeed ZeRO Stage 2和vLLM实现高效训练和推理

模型能力

数学推理
倒计时游戏求解
结构化推理过程展示

使用案例

教育
数学思维训练
用于训练学生解决倒计时游戏等数学问题的能力
可展示完整的解题思路和步骤
游戏
倒计时游戏辅助
帮助玩家解决倒计时游戏中的数学难题
提供多种可能的解决方案
AIbase
智启未来,您的人工智能解决方案智库
简体中文