🚀 AceMath-7B-Instruct GGUF模型
AceMath-7B-Instruct GGUF模型是专为数学推理设计的前沿模型,能有效解决各类数学问题,且在多种数学推理基准测试中表现出色。
🚀 快速开始
模型生成详情
本模型使用 llama.cpp 在提交版本 e743cddb
生成。
超越IMatrix的量化方法
我一直在尝试一种新的量化方法,该方法有选择地提高关键层的精度,超越了默认IMatrix配置提供的精度。
在测试中,标准的IMatrix量化在较低比特深度下表现不佳,特别是对于专家混合(MoE)模型。为了解决这个问题,我使用 llama.cpp
中的 --tensor-type
选项手动将重要层的精度提升。你可以在以下链接查看实现:
👉 使用llama.cpp进行层提升
虽然这会增加模型文件的大小,但显著提高了给定量化级别的精度。
选择合适的GGUF模型格式
点击此处获取选择合适GGUF模型格式的信息
✨ 主要特性
模型介绍
我们推出了AceMath,这是一系列专为数学推理设计的前沿模型。AceMath系列模型包括AceMath-1.5B/7B/72B-Instruct和AceMath-7B/72B-RM,基于Qwen进行了改进。
AceMath-1.5B/7B/72B-Instruct模型擅长使用思维链(CoT)推理解决英语数学问题,而AceMath-7B/72B-RM模型作为结果奖励模型,专门用于评估和评分数学解决方案。
AceMath-1.5B/7B/72B-Instruct模型基于Qwen2.5-Math-1.5B/7B/72B-Base模型开发,采用多阶段监督微调(SFT)过程:首先使用通用SFT数据,然后使用特定于数学的SFT数据。我们将发布所有训练数据,以支持该领域的进一步研究。
我们仅建议将AceMath模型用于解决数学问题。为了支持其他任务,我们还发布了AceInstruct-1.5B/7B/72B,这是一系列通用SFT模型,旨在处理代码、数学和通用知识任务。这些模型基于Qwen2.5-1.5B/7B/72B-Base构建。
如需了解更多关于AceMath的信息,请访问我们的 网站 和 论文。
所有资源
AceMath指令模型
AceMath奖励模型
评估与训练数据
通用指令模型
基准测试结果(AceMath-Instruct + AceMath-72B-RM)
我们将AceMath与领先的专有和开放访问数学模型进行了比较。我们的AceMath-7B-Instruct在各种数学推理基准测试中大大优于之前同类最佳的Qwen2.5-Math-7B-Instruct(平均通过率@1:67.2 vs. 62.9),接近10倍大的Qwen2.5-Math-72B-Instruct的性能(67.2 vs. 68.2)。值得注意的是,我们的AceMath-72B-Instruct在一定程度上优于最先进的Qwen2.5-Math-72B-Instruct(71.8 vs. 68.2)、GPT-4o(67.4)和Claude 3.5 Sonnet(65.6)。我们还报告了我们的奖励模型AceMath-72B-RM实现的rm@8准确率(8个中的最佳值),这在这些推理基准测试中创下了新纪录。这不包括依赖于扩展推理计算的OpenAI的o1模型。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "nvidia/AceMath-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
prompt = "Jen enters a lottery by picking $4$ distinct numbers from $S=\\{1,2,3,\\cdots,9,10\\}.$ $4$ numbers are randomly chosen from $S.$ She wins a prize if at least two of her numbers were $2$ of the randomly chosen numbers, and wins the grand prize if all four of her numbers were the randomly chosen numbers. The probability of her winning the grand prize given that she won a prize is $\\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to("cuda")
generated_ids = model.generate(
**model_inputs,
max_new_tokens=2048
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 详细文档
联系方式
- 刘紫涵 (zihanl@nvidia.com)
- 陈阳 (yachen@nvidia.com)
- 平伟 (wping@nvidia.com)
引用
如果您认为我们的工作有帮助,请引用我们的论文。
@article{acemath2024,
title={AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling},
author={Liu, Zihan and Chen, Yang and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
journal={arXiv preprint},
year={2024}
}
测试AI网络监控模型
如果您认为这些模型有用,请帮助我测试我的 AI驱动的量子网络监控助手 ,进行 量子就绪安全检查:
👉 量子网络监控
量子网络监控服务的完整开源代码可在我的GitHub仓库(名称中包含NetworkMonitor的仓库)中找到:量子网络监控源代码。如果您想自己进行模型量化,也可以找到我使用的代码 GGUFModelBuilder
测试方法
选择一种 AI助手类型:
TurboLLM
(GPT-4.1-mini)
HugLLM
(Hugginface开源模型)
TestLLM
(仅支持CPU的实验性模型)
测试内容
我正在挑战 小型开源模型在AI网络监控中的极限,具体包括:
- 针对实时网络服务进行 函数调用
- 探索模型在仍能处理以下任务的情况下可以多小:
- 自动进行 Nmap安全扫描
- 量子就绪检查
- 网络监控任务
实验模型TestLLM
当前的实验性模型(在Hugging Face Docker空间中使用2个CPU线程运行llama.cpp):
- ✅ 零配置设置
- ⏳ 加载时间30秒(推理速度慢,但 无API成本)。由于成本低,没有令牌限制。
- 🔧 寻求帮助! 如果您对 边缘设备AI 感兴趣,让我们合作吧!
其他助手
测试命令示例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注意,您需要安装 量子网络监控代理 才能运行.net代码。这是一个非常灵活和强大的功能,请谨慎使用!
结束语
我自掏腰包资助用于创建这些模型文件的服务器、运行量子网络监控服务,并支付Novita和OpenAI的推理费用。模型创建和量子网络监控项目背后的所有代码都是 开源的。您可以随意使用任何有用的内容。
如果您认可我的工作,请考虑 请我喝杯咖啡 ☕。您的支持有助于支付服务成本,并允许我提高所有人的令牌限制。
我也接受工作机会或赞助。
感谢您的支持! 😊
📄 许可证
AceMath系列的所有模型仅用于非商业用途,需遵守OpenAI生成数据的 使用条款。我们将AceMath模型置于 知识共享署名-非商业性使用4.0国际许可协议 之下。