🚀 AM‑Thinking‑v1:在320亿参数规模上推进推理能力的前沿
我们发布了 AM-Thinking‑v1,这是一个专注于提升推理能力的320亿参数的密集语言模型。该模型基于Qwen 2.5 - 32B - Base构建,在推理基准测试中表现出色,其性能可与许多更大的混合专家(MoE)模型(如 DeepSeek‑R1、Qwen3 - 235B - A22B、Seed1.5 - Thinking)以及更大的密集模型(如 Nemotron - Ultra - 253B - v1)相媲美。
🤗 Hugging Face   |    📑 论文    |    📑 博客   
🚀 快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "a-m-team/AM-Thinking-v1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "How can I find inner peace?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=49152
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)
think_content = response.split("<think>")[1].split("</think>")[0]
answer_content = response.split("<answer>")[1].split("</answer>")[0]
print (f"user prompt: {prompt}")
print (f"model thinking: {think_content}")
print (f"model answer: {answer_content}")
⚠️ 重要提示
我们已将系统提示包含在分词器配置中,因为在监督微调(SFT)和强化学习(RL)阶段都使用了该提示。为确保输出质量一致,建议在实际使用时包含相同的系统提示;否则,模型的响应可能会受到显著影响。
适用于紧凑型设备的量化版本
AM-Thinking-v1 模型有一系列量化版本。这些版本可用于 llama.cpp 和 Ollama,可在 AM-Thinking-v1-gguf 找到。
✨ 主要特性
填补市场空白
大型混合专家(MoE)模型(如 DeepSeek‑R1 或 Qwen3 - 235B - A22B)在排行榜上占据主导地位,但它们需要高端GPU集群。许多团队只需要 适合单张显卡的最佳密集模型。AM - Thinking - v1 填补了这一空白,同时完全基于开源组件:
- 在AIME’24/’25和LiveCodeBench上 优于DeepSeek - R1,尽管参数数量只有 Qwen3 - 235B - A22B 的1/7,但性能 接近Qwen3 - 235B - A22B。
- 基于公开可用的 Qwen 2.5 - 32B - Base 以及强化学习训练查询构建。
- 表明通过 精心设计的后训练管道(SFT + 双阶段RL),可以在320亿参数的密集模型中实现旗舰级的推理能力。
- 可以在一张A100 - 80GB显卡上部署,具有确定性的延迟,没有MoE路由开销。
多领域应用能力
- 代码生成:可以根据提示编写Python脚本,例如编写一个在三角形内弹跳的红球的脚本,并处理碰撞检测,同时让三角形缓慢旋转,确保球始终在三角形内。

- 逻辑推理:在逻辑推理任务中表现出色。

- 文本写作:能够生成高质量的文本内容。

🔧 技术细节
后训练管道
为了实现强大的推理能力,AM - Thinking - v1 经过了精心设计的后训练管道。以下是将基础模型转化为高性能推理器的关键步骤:
- 步骤1 - 冷启动监督微调(SFT):从开源的 Qwen 2.5 - 32B - Base 开始,在数学、代码和开放领域聊天的混合训练数据集上进行广泛的监督微调。这使模型具备 “先思考后回答” 的行为模式,并赋予其初始的推理能力。
- 步骤2 - 通过率感知的数据筛选:在进行任何强化学习之前,在每个面向数学和代码的训练查询上评估监督微调模型。为每个项目记录通过率,只保留 0 < 通过率 < 1 的项目。实际上,我们丢弃了模型已经掌握的问题和完全失败的问题,将学习集中在真正有信息价值的案例上。
- 步骤3 - 强化学习:采用两阶段GRPO方案:阶段1仅在数学和代码查询上进行训练。一旦收敛,阶段2开始,移除模型在阶段1中100%正确回答的所有查询,并调整关键超参数,如最大生成长度和学习率。
⚠️ 局限性
虽然AM - Thinking - v1在纯语言推理和开放领域聊天方面表现出色,但它尚未针对结构化函数调用或工具使用工作流程进行训练,这限制了它在必须对外部系统采取行动的代理式应用中的实用性。提高模型遵循复杂指令的能力也是我们未来工作的一个重要方向。此外,我们的安全对齐仍处于早期阶段,因此需要更严格的红队测试来减少潜在危害。
📚 详细文档
引用
a - m - team是贝壳(Ke.com)的内部团队,致力于探索AGI技术。如果您觉得我们的工作有帮助,请随意引用。
@misc{ji2025amthinkingv1advancingfrontierreasoning,
title={AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale},
author={Yunjie Ji and Xiaoyu Tian and Sitong Zhao and Haotian Wang and Shuaiting Chen and Yiping Peng and Han Zhao and Xiangang Li},
year={2025},
eprint={2505.08311},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.08311},
}
📄 许可证
本项目采用Apache 2.0许可证。