Llama-3_3-Nemotron-Super-49B-v1-GGUF开源大模型

首页

Llama 3 3 Nemotron Super 49B V1 GGUF

由 Mungert 开发

采用IQ-DynamicGate超低位量化技术的49B参数大语言模型，支持1-2位精度自适应量化，优化内存效率与推理速度

大型语言模型英语开源协议:其他 #超低位量化 #精度自适应 #内存高效

下载量 434

发布时间 : 3/29/2025

模型简介

基于Llama-3架构的超大规模语言模型，通过创新的动态精度分配技术实现超低位量化，适用于内存受限环境下的高效文本生成

模型特点

IQ-DynamicGate超低位量化

采用分层动态精度分配策略，关键组件保护技术减少38%误差传播

精度自适应优化

前25%和后25%层使用IQ4_XS，中间层使用IQ2_XXS/IQ3_S，实现最优精度平衡

极致内存效率

1-2位量化版本内存占用仅2.1-2.9GB，适合边缘设备部署

模型能力

英语文本生成

长上下文处理(2048令牌)

超低位量化推理

使用案例

资源受限环境部署

边缘设备文本生成

在低内存GPU/CPU设备上运行生成任务

IQ1_S量化版仅需2.1GB内存

量化技术研究

超低位量化效果验证

测试1-2位量化对语言模型性能的影响

IQ1_M困惑度降低43.9%

🚀 Llama-3.3-Nemotron-Super-49B-v1 GGUF模型

Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct开发的大语言模型，在推理能力、聊天交互和任务处理等方面表现出色，支持128K token的上下文长度，能在准确性和效率之间实现良好平衡。

🚀 快速开始

推理模式控制

推理模式（开启/关闭）通过系统提示控制，所有指令应包含在用户提示中。示例如下：

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

推理开启模式参数设置

建议在推理开启模式下，将温度设置为0.6，Top P设置为0.95。

推理关闭模式参数设置

建议在推理关闭模式下使用贪心解码。

试用链接

可以通过以下链接使用预览API试用该模型：Llama-3_3-Nemotron-Super-49B-v1。

✨ 主要特性

模型优化

使用新颖的神经架构搜索（NAS）方法，大幅减少模型的内存占用，可在单个GPU（如H200）上处理高负载工作。
多阶段的后训练过程，包括监督微调阶段和多个强化学习阶段，增强了模型的推理和非推理能力。

语言支持

支持英语和多种编码语言，同时也支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等非英语语言。

上下文长度

支持长达131,072个token的上下文长度。

📦 安装指南

文档未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   **model_kwargs
)

thinking = "on"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

高级用法

import torch
import transformers

model_id = "nvidia/Llama-3_3-Nemotron-Super-49B-v1"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
   "text-generation",
   model=model_id,
   tokenizer=tokenizer,
   max_new_tokens=32768,
   do_sample=False,
   **model_kwargs
)

# Thinking can be "on" or "off"
thinking = "off"

print(pipeline([{"role": "system", "content": f"detailed thinking {thinking}"},{"role": "user", "content": "Solve x*(sin(x)+2)=0"}]))

📚 详细文档

模型概述

Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的推理模型，经过多阶段后训练，支持128K token的上下文长度，在准确性和效率之间取得了良好平衡。

许可证/使用条款

本模型的使用受NVIDIA开放模型许可证的约束。
附加信息：Llama 3.3社区许可协议。

模型开发者

NVIDIA

模型日期

训练时间为2024年11月至2025年2月。

数据新鲜度

预训练数据截止到2023年（根据Meta Llama 3.3 70B）。

用例

适用于设计AI代理系统、聊天机器人、RAG系统和其他AI应用的开发者，也适用于典型的指令跟随任务。

发布日期

2025年3月18日

参考资料

模型架构

架构类型：密集解码器Transformer模型
网络架构：Llama 3.3 70B Instruct，通过神经架构搜索（NAS）进行定制。NAS算法产生非标准和非重复的块，包括跳过注意力和可变FFN等。

预期用途

适用于英语和编码语言，也支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等非英语语言。

输入

输入类型：文本
输入格式：字符串
输入参数：一维（1D）
其他输入相关属性：上下文长度最大为131,072个token

输出

输出类型：文本
输出格式：字符串
输出参数：一维（1D）
其他输出相关属性：上下文长度最大为131,072个token

模型版本

1.0（2025年3月18日）

软件集成

运行时引擎：Transformers
推荐硬件微架构兼容性：NVIDIA Hopper、NVIDIA Ampere

🔧 技术细节

量化方法

最新的量化方法引入了针对超低比特模型（1 - 2比特）的精度自适应量化，在Llama-3-8B上经过基准测试验证有改进。该方法使用特定层策略，在保持极高内存效率的同时保留准确性。

基准测试上下文

所有测试在Llama-3-8B-Instruct上进行，使用标准困惑度评估管道、2048个token的上下文窗口和相同的提示集。

量化性能比较（Llama-3-8B）

量化方式	标准PPL	DynamicGate PPL	Δ PPL	标准大小	DG大小	Δ 大小	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键改进

🔥 IQ1_M的困惑度大幅降低43.9%（从27.46降至15.41）
🚀 IQ2_S的困惑度降低36.9%，同时仅增加0.2GB
⚡ IQ1_S尽管是1比特量化，但仍保持39.7%的更高准确性

权衡

所有变体的大小都有适度增加（0.1 - 0.3GB）
推理速度相当（差异小于5%）

模型格式选择

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	高速推理，减少内存占用
F16	高	高	支持FP16的设备	当BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低VRAM设备	内存受限环境
Q6_K	中	中等	内存较多的CPU	量化模型中准确性较好
Q8_0	高	中等	有足够VRAM的CPU或GPU	量化模型中准确性最高
IQ3_XS	非常低	非常低	超低内存设备	极高内存效率，低准确性
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备优化

训练过程

模型经过多阶段后训练，包括监督微调阶段和多个强化学习阶段，最终模型检查点是在合并最终SFT和在线RPO检查点后获得。

训练数据集

知识蒸馏阶段使用了多种训练数据，包括FineWeb、Buzz-V1.2和Dolma。
多阶段后训练的数据是SFT和RL数据的集合，支持提高数学、代码、一般推理和指令跟随能力。
NVIDIA发布了3000万个后训练数据样本，可在Llama-Nemotron-Postraining-Dataset-v1查看。

评估数据集

使用了多种数据集进行评估，数据收集和标注采用混合方式（人工/合成/自动）。

评估结果

评估结果包含“推理开启”和“推理关闭”两种模式，建议在“推理开启”模式下使用温度0.6，top_p0.95，在“推理关闭”模式下使用贪心解码。所有评估均在32k序列长度下进行。

评估数据集	推理模式	得分
Arena-Hard	推理关闭	88.3
MATH500	推理关闭	74.0
MATH500	推理开启	96.6
AIME25	推理关闭	13.33
AIME25	推理开启	58.4
GPQA	推理关闭	50
GPQA	推理开启	66.67
IFEval	推理关闭	89.21
BFCL V2 Live	推理关闭	73.7
MBPP 0-shot	推理关闭	84.9
MBPP 0-shot	推理开启	91.3
MT-Bench	推理关闭	9.17