AceMath-7B-Instruct开源数学推理模型 - 免费解决英语数学难题

首页

Acemath 7B Instruct GGUF

由 Mungert 开发

AceMath-7B-Instruct是专为数学推理设计的前沿模型，基于Qwen2.5-Math-7B-Base开发，擅长使用思维链（CoT）推理解决英语数学问题。

大型语言模型英语#数学推理优化 #分层量化精度 #竞赛级数学解题

下载量 524

发布时间 : 7/15/2025

模型简介

该模型通过多阶段监督微调（SFT）过程训练，先使用通用SFT数据，再使用数学专用SFT数据，在多种数学推理基准测试中表现优异。

模型特点

优化的量化方法

采用选择性提升关键层精度的量化方法，超越标准IMatrix量化，显著提高低比特深度下的模型精度。

多阶段训练

先使用通用SFT数据进行初步训练，再使用数学专用SFT数据进行精细调优，提升数学推理能力。

基准测试领先

在多种数学推理基准测试中表现优异，超越同类最佳模型Qwen2.5-Math-7B-Instruct，接近10倍大的72B模型性能。

模型能力

数学问题求解

思维链推理

概率计算

代数问题解答

使用案例

教育

数学竞赛题解答

解决复杂的数学竞赛题目，如概率计算、组合数学等。

在基准测试中达到67.2%的通过率

研究

数学推理研究

作为数学推理能力研究的基准模型。

🚀 AceMath-7B-Instruct GGUF模型

AceMath-7B-Instruct GGUF模型是专为数学推理设计的前沿模型，能有效解决各类数学问题，且在多种数学推理基准测试中表现出色。

🚀 快速开始

模型生成详情

本模型使用 llama.cpp 在提交版本 e743cddb 生成。

超越IMatrix的量化方法

我一直在尝试一种新的量化方法，该方法有选择地提高关键层的精度，超越了默认IMatrix配置提供的精度。

在测试中，标准的IMatrix量化在较低比特深度下表现不佳，特别是对于专家混合（MoE）模型。为了解决这个问题，我使用 llama.cpp 中的 --tensor-type 选项手动将重要层的精度提升。你可以在以下链接查看实现：
👉 使用llama.cpp进行层提升

虽然这会增加模型文件的大小，但显著提高了给定量化级别的精度。

选择合适的GGUF模型格式

点击此处获取选择合适GGUF模型格式的信息

✨ 主要特性

模型介绍

我们推出了AceMath，这是一系列专为数学推理设计的前沿模型。AceMath系列模型包括AceMath-1.5B/7B/72B-Instruct和AceMath-7B/72B-RM，基于Qwen进行了改进。

AceMath-1.5B/7B/72B-Instruct模型擅长使用思维链（CoT）推理解决英语数学问题，而AceMath-7B/72B-RM模型作为结果奖励模型，专门用于评估和评分数学解决方案。

AceMath-1.5B/7B/72B-Instruct模型基于Qwen2.5-Math-1.5B/7B/72B-Base模型开发，采用多阶段监督微调（SFT）过程：首先使用通用SFT数据，然后使用特定于数学的SFT数据。我们将发布所有训练数据，以支持该领域的进一步研究。

我们仅建议将AceMath模型用于解决数学问题。为了支持其他任务，我们还发布了AceInstruct-1.5B/7B/72B，这是一系列通用SFT模型，旨在处理代码、数学和通用知识任务。这些模型基于Qwen2.5-1.5B/7B/72B-Base构建。

如需了解更多关于AceMath的信息，请访问我们的网站和论文。

所有资源

AceMath指令模型

AceMath奖励模型

评估与训练数据

通用指令模型

基准测试结果（AceMath-Instruct + AceMath-72B-RM）

AceMath基准测试结果

我们将AceMath与领先的专有和开放访问数学模型进行了比较。我们的AceMath-7B-Instruct在各种数学推理基准测试中大大优于之前同类最佳的Qwen2.5-Math-7B-Instruct（平均通过率@1：67.2 vs. 62.9），接近10倍大的Qwen2.5-Math-72B-Instruct的性能（67.2 vs. 68.2）。值得注意的是，我们的AceMath-72B-Instruct在一定程度上优于最先进的Qwen2.5-Math-72B-Instruct（71.8 vs. 68.2）、GPT-4o（67.4）和Claude 3.5 Sonnet（65.6）。我们还报告了我们的奖励模型AceMath-72B-RM实现的rm@8准确率（8个中的最佳值），这在这些推理基准测试中创下了新纪录。这不包括依赖于扩展推理计算的OpenAI的o1模型。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nvidia/AceMath-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")

prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 详细文档

联系方式

刘紫涵 (zihanl@nvidia.com)
陈阳 (yachen@nvidia.com)
平伟 (wping@nvidia.com)

引用

如果您认为我们的工作有帮助，请引用我们的论文。

@article{acemath2024,
  title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
  author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
  journal={arXiv preprint},
  year={2024}
}

测试AI网络监控模型

如果您认为这些模型有用，请帮助我测试我的 AI驱动的量子网络监控助手 ，进行 量子就绪安全检查：
👉 量子网络监控

量子网络监控服务的完整开源代码可在我的GitHub仓库（名称中包含NetworkMonitor的仓库）中找到：量子网络监控源代码。如果您想自己进行模型量化，也可以找到我使用的代码 GGUFModelBuilder

测试方法

选择一种 AI助手类型：

TurboLLM (GPT-4.1-mini)
HugLLM (Hugginface开源模型)
TestLLM (仅支持CPU的实验性模型)

测试内容

我正在挑战 小型开源模型在AI网络监控中的极限，具体包括：

针对实时网络服务进行 函数调用
探索模型在仍能处理以下任务的情况下可以多小：
- 自动进行 Nmap安全扫描
- 量子就绪检查
- 网络监控任务

实验模型TestLLM

当前的实验性模型（在Hugging Face Docker空间中使用2个CPU线程运行llama.cpp）：

✅ 零配置设置
⏳ 加载时间30秒（推理速度慢，但 无API成本）。由于成本低，没有令牌限制。
🔧 寻求帮助！ 如果您对 边缘设备AI 感兴趣，让我们合作吧！

其他助手

🟢 TurboLLM – 使用 gpt-4.1-mini：
- 表现非常出色，但不幸的是OpenAI按令牌收费。因此，令牌使用受到限制。
- 创建自定义cmd处理器，在量子网络监控代理上运行.net代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试 (Nmap/Metasploit)
🔵 HugLLM – 最新的开源模型：
- 🌐 在Hugging Face推理API上运行。使用Novita托管的最新模型表现相当不错。

测试命令示例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注意，您需要安装量子网络监控代理才能运行.net代码。这是一个非常灵活和强大的功能，请谨慎使用！