AM-Thinking-v1开源语言模型 - 增强推理能力，媲美大规模MoE模型性能

首页

AM Thinking V1

由 a-m-team 开发

专注于增强推理能力的320亿参数稠密语言模型，基于Qwen 2.5‑32B‑Base构建，在推理基准测试中展现出与更大规模MoE模型相媲美的性能。

大型语言模型

Transformers

开源协议:Apache-2.0 #32B推理优化 #单卡部署 #稠密模型

下载量 1,377

发布时间 : 5/10/2025

模型简介

AM-Thinking-v1是一个320亿参数的稠密语言模型，专注于增强推理能力，基于Qwen 2.5‑32B‑Base构建，通过精心设计的训练流程实现旗舰级推理能力。

模型特点

高性能推理能力

在推理基准测试中展现出与DeepSeek‑R1、Qwen3‑235B‑A22B等更大规模MoE模型相媲美的性能。

单卡部署

单张A100-80GB显卡即可部署，具有确定性延迟，无需MoE路由开销。

开源组件构建

完全基于开源组件构建，包括Qwen 2.5‑32B‑Base及强化学习训练数据。

精心设计的训练流程

通过监督微调+双阶段强化学习的训练流程，实现旗舰级推理能力。

模型能力

文本生成

复杂推理

代码生成

使用案例

推理任务

数学推理

解决复杂的数学问题

在AIME’24/’25基准测试中表现优异

代码生成

生成高质量的代码

在LiveCodeBench上超越DeepSeek‑R1

🚀 AM‑Thinking‑v1：在320亿参数规模上推进推理能力的前沿

我们发布了 AM-Thinking‑v1，这是一个专注于提升推理能力的320亿参数的密集语言模型。该模型基于Qwen 2.5 - 32B - Base构建，在推理基准测试中表现出色，其性能可与许多更大的混合专家（MoE）模型（如 DeepSeek‑R1、Qwen3 - 235B - A22B、Seed1.5 - Thinking）以及更大的密集模型（如 Nemotron - Ultra - 253B - v1）相媲美。

🤗 Hugging Face | 📑 论文 | 📑 博客

🚀 快速开始

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "a-m-team/AM-Thinking-v1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "How can I find inner peace?"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=49152
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

response = tokenizer.decode(output_ids, skip_special_tokens=True)
think_content = response.split("<think>")[1].split("</think>")[0]
answer_content = response.split("<answer>")[1].split("</answer>")[0]

print (f"user prompt: {prompt}")
print (f"model thinking: {think_content}")
print (f"model answer: {answer_content}")

⚠️ 重要提示

我们已将系统提示包含在分词器配置中，因为在监督微调（SFT）和强化学习（RL）阶段都使用了该提示。为确保输出质量一致，建议在实际使用时包含相同的系统提示；否则，模型的响应可能会受到显著影响。

适用于紧凑型设备的量化版本

AM-Thinking-v1 模型有一系列量化版本。这些版本可用于 llama.cpp 和 Ollama，可在 AM-Thinking-v1-gguf 找到。

✨ 主要特性

填补市场空白

大型混合专家（MoE）模型（如 DeepSeek‑R1 或 Qwen3 - 235B - A22B）在排行榜上占据主导地位，但它们需要高端GPU集群。许多团队只需要 适合单张显卡的最佳密集模型。AM - Thinking - v1 填补了这一空白，同时完全基于开源组件：

在AIME’24/’25和LiveCodeBench上 优于DeepSeek - R1，尽管参数数量只有 Qwen3 - 235B - A22B 的1/7，但性能 接近Qwen3 - 235B - A22B。
基于公开可用的 Qwen 2.5 - 32B - Base 以及强化学习训练查询构建。
表明通过 精心设计的后训练管道（SFT + 双阶段RL），可以在320亿参数的密集模型中实现旗舰级的推理能力。
可以在一张A100 - 80GB显卡上部署，具有确定性的延迟，没有MoE路由开销。

多领域应用能力

代码生成：可以根据提示编写Python脚本，例如编写一个在三角形内弹跳的红球的脚本，并处理碰撞检测，同时让三角形缓慢旋转，确保球始终在三角形内。
逻辑推理：在逻辑推理任务中表现出色。
文本写作：能够生成高质量的文本内容。

🔧 技术细节

后训练管道

为了实现强大的推理能力，AM - Thinking - v1 经过了精心设计的后训练管道。以下是将基础模型转化为高性能推理器的关键步骤：

步骤1 - 冷启动监督微调（SFT）：从开源的 Qwen 2.5 - 32B - Base 开始，在数学、代码和开放领域聊天的混合训练数据集上进行广泛的监督微调。这使模型具备 “先思考后回答” 的行为模式，并赋予其初始的推理能力。
步骤2 - 通过率感知的数据筛选：在进行任何强化学习之前，在每个面向数学和代码的训练查询上评估监督微调模型。为每个项目记录通过率，只保留 0 < 通过率 < 1 的项目。实际上，我们丢弃了模型已经掌握的问题和完全失败的问题，将学习集中在真正有信息价值的案例上。
步骤3 - 强化学习：采用两阶段GRPO方案：阶段1仅在数学和代码查询上进行训练。一旦收敛，阶段2开始，移除模型在阶段1中100%正确回答的所有查询，并调整关键超参数，如最大生成长度和学习率。

⚠️ 局限性

虽然AM - Thinking - v1在纯语言推理和开放领域聊天方面表现出色，但它尚未针对结构化函数调用或工具使用工作流程进行训练，这限制了它在必须对外部系统采取行动的代理式应用中的实用性。提高模型遵循复杂指令的能力也是我们未来工作的一个重要方向。此外，我们的安全对齐仍处于早期阶段，因此需要更严格的红队测试来减少潜在危害。

📚 详细文档

引用

a - m - team是贝壳（Ke.com）的内部团队，致力于探索AGI技术。如果您觉得我们的工作有帮助，请随意引用。

@misc{ji2025amthinkingv1advancingfrontierreasoning,
      title={AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale}, 
      author={Yunjie Ji and Xiaoyu Tian and Sitong Zhao and Haotian Wang and Shuaiting Chen and Yiping Peng and Han Zhao and Xiangang Li},
      year={2025},
      eprint={2505.08311},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.08311}, 
}