M

M1 3B

由 togethercomputer 开发
M1是一个基于Mamba混合架构的3B参数规模模型,专注于数学推理任务,在多项数学竞赛基准测试中表现优异。
下载量 1,160
发布时间 : 5/2/2025

模型简介

该模型是依据论文《M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models》训练的混合模型,主要用于数学推理和文本生成任务。

模型特点

高效推理架构
采用Mamba混合架构,实现可扩展的测试时计算效率
数学推理能力
在多项数学竞赛基准测试中超越同类Transformer模型
参数效率
仅3B参数规模即达到或超越更大规模模型的表现

模型能力

数学问题求解
复杂推理
文本生成

使用案例

教育
数学竞赛辅助
用于解决各类数学竞赛题目
在AIME、MATH等竞赛数据集上表现优异
数学学习助手
帮助学生理解和解决复杂数学问题
研究
数学推理研究
作为数学推理能力研究的基准模型
AIbase
智启未来,您的人工智能解决方案智库
简体中文