NVIDIA OpenReasoning - Nemotron - 1.5B-GGUF开源模型 - 优化运行提效不同硬件性能

首页

Nvidia OpenReasoning Nemotron 1.5B GGUF

由 bartowski 开发

NVIDIA OpenReasoning - Nemotron - 1.5B的量化版本，通过llama.cpp工具优化，提升在不同硬件上的运行效率和性能。

大型语言模型 #高效推理优化 #多量化适配 #轻量级LLM

下载量 660

发布时间 : 7/18/2025

模型简介

这是一个1.5B参数规模的推理模型，经过量化处理，适用于多种硬件环境，特别注重推理效率和性能优化。

模型特点

多种量化类型

提供丰富的量化类型，如bf16、Q8_0、Q6_K_L等，满足不同的性能和质量需求。

高效运行

部分量化版本针对ARM和AVX机器进行了优化，通过在线重新打包权重提高性能。

灵活下载

支持使用huggingface-cli下载特定文件或整个模型分支。

优化推理

使用imatrix选项和特定数据集进行量化，优化推理性能。

模型能力

文本生成

推理任务处理

多硬件兼容运行

使用案例

通用推理

对话系统

可用于构建对话系统，支持多轮对话。

文本生成

生成连贯、有逻辑的文本内容。

研究开发

模型量化研究

研究不同量化方法对模型性能的影响。

🚀 NVIDIA OpenReasoning - Nemotron - 1.5B的Llamacpp imatrix量化版本

本项目提供了NVIDIA OpenReasoning - Nemotron - 1.5B模型的量化版本，借助llama.cpp工具进行量化处理，旨在提升模型在不同硬件上的运行效率和性能。

🚀 快速开始

运行环境

可在 LM Studio 中直接运行量化后的模型。
也可以使用 llama.cpp 或其他基于llama.cpp的项目来运行。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多种量化类型：提供了丰富的量化类型，如bf16、Q8_0、Q6_K_L等，满足不同的性能和质量需求。
高效运行：部分量化版本针对ARM和AVX机器进行了优化，通过在线重新打包权重提高性能。
灵活下载：支持使用huggingface - cli下载特定文件或整个模型分支。

📦 安装指南

安装huggingface - cli

pip install -U "huggingface_hub[cli]"

下载特定文件

huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q4_K_M.gguf" --local-dir ./

下载拆分的大模型

huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q8_0/*" --local-dir ./

📚 详细文档

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
OpenReasoning - Nemotron - 1.5B - bf16.gguf	bf16	3.09GB	false	完整的BF16权重。
OpenReasoning - Nemotron - 1.5B - Q8_0.gguf	Q8_0	1.65GB	false	极高质量，通常不需要，但为可用的最大量化。
OpenReasoning - Nemotron - 1.5B - Q6_K_L.gguf	Q6_K_L	1.33GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
OpenReasoning - Nemotron - 1.5B - Q6_K.gguf	Q6_K	1.27GB	false	非常高质量，接近完美，推荐。
OpenReasoning - Nemotron - 1.5B - Q5_K_L.gguf	Q5_K_L	1.18GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
OpenReasoning - Nemotron - 1.5B - Q5_K_M.gguf	Q5_K_M	1.13GB	false	高质量，推荐。
OpenReasoning - Nemotron - 1.5B - Q5_K_S.gguf	Q5_K_S	1.10GB	false	高质量，推荐。
OpenReasoning - Nemotron - 1.5B - Q4_K_L.gguf	Q4_K_L	1.04GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
OpenReasoning - Nemotron - 1.5B - Q4_1.gguf	Q4_1	1.02GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上提高了每瓦令牌数。
OpenReasoning - Nemotron - 1.5B - Q4_K_M.gguf	Q4_K_M	0.99GB	false	质量良好，大多数用例的默认大小，推荐。
OpenReasoning - Nemotron - 1.5B - Q4_K_S.gguf	Q4_K_S	0.94GB	false	质量略低，但节省更多空间，推荐。
OpenReasoning - Nemotron - 1.5B - Q4_0.gguf	Q4_0	0.94GB	false	旧格式，为ARM和AVX CPU推理提供在线重新打包。
OpenReasoning - Nemotron - 1.5B - IQ4_NL.gguf	IQ4_NL	0.94GB	false	与IQ4_XS相似，但略大。为ARM CPU推理提供在线重新打包。
OpenReasoning - Nemotron - 1.5B - Q3_K_XL.gguf	Q3_K_XL	0.94GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
OpenReasoning - Nemotron - 1.5B - IQ4_XS.gguf	IQ4_XS	0.90GB	false	质量尚可，比Q4_K_S小，性能相似，推荐。
OpenReasoning - Nemotron - 1.5B - Q3_K_L.gguf	Q3_K_L	0.88GB	false	质量较低但可用，适合低内存情况。
OpenReasoning - Nemotron - 1.5B - Q3_K_M.gguf	Q3_K_M	0.82GB	false	低质量。
OpenReasoning - Nemotron - 1.5B - IQ3_M.gguf	IQ3_M	0.78GB	false	中低质量，新方法，性能与Q3_K_M相当。
OpenReasoning - Nemotron - 1.5B - Q3_K_S.gguf	Q3_K_S	0.76GB	false	低质量，不推荐。
OpenReasoning - Nemotron - 1.5B - IQ3_XS.gguf	IQ3_XS	0.73GB	false	质量较低，新方法，性能尚可，略优于Q3_K_S。
OpenReasoning - Nemotron - 1.5B - Q2_K_L.gguf	Q2_K_L	0.73GB	false	嵌入和输出权重使用Q8_0。非常低质量，但出人意料地可用。
OpenReasoning - Nemotron - 1.5B - Q2_K.gguf	Q2_K	0.68GB	false	非常低质量，但出人意料地可用。
OpenReasoning - Nemotron - 1.5B - IQ3_XXS.gguf	IQ3_XXS	0.67GB	false	质量较低，新方法，性能尚可，与Q3量化相当。

嵌入/输出权重

部分量化版本（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

以前，会下载Q4_0_4_4/4_8/8_8，这些权重在内存中交错排列，以提高ARM和AVX机器的性能。
现在，有了“在线重新打包”权重的功能，详情见此PR。如果使用Q4_0且硬件适合重新打包权重，将自动进行。
从llama.cpp构建 b4282 开始，无法运行Q4_0_X_X文件，需使用Q4_0。
此外，借助此PR，可以使用IQ4_NL获得略高的质量，它也会为ARM重新打包权重，但目前仅支持4_4。加载时间可能较慢，但总体速度会提高。

如何选择文件

点击查看详情

Artefact2 提供了一个很棒的文章，带有展示各种性能的图表，点击查看

首先，要确定能运行多大的模型，这需要了解自己的RAM和/或VRAM容量。

如果希望模型运行尽可能快，应使整个模型适合GPU的VRAM。选择文件大小比GPU总VRAM小1 - 2GB的量化版本。
如果追求绝对最高质量，将系统RAM和GPU的VRAM相加，然后选择文件大小比该总和小1 - 2GB的量化版本。

其次，需要决定使用“I - 量化”还是“K - 量化”。

如果不想考虑太多，选择K - 量化，格式为“QX_K_X”，如Q5_K_M。
如果想深入了解，可以查看 [llama.cpp特性矩阵](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。
一般来说，如果目标是低于Q4，并且使用cuBLAS（Nvidia）或rocBLAS（AMD），应考虑I - 量化，格式为IQX_X，如IQ3_M。这些是较新的量化方式，相同大小下性能更好。
I - 量化也可在CPU上使用，但比K - 量化慢，需要在速度和性能之间进行权衡。