Llama-3.1-Nemotron-Nano-8B-v1-GGUF开源大语言模型 - 8B参数多量化版本免费可用

首页

Llama 3.1 Nemotron Nano 8B V1 GGUF

由 tensorblock 开发

NVIDIA发布的8B参数规模的开源大语言模型，基于Llama-3架构，提供多种量化版本

大型语言模型英语开源协议:其他 #轻量级8B模型 #多轮对话优化 #GGUF高效推理

下载量 1,048

发布时间 : 3/18/2025

模型简介

这是一个基于Llama-3架构的8B参数规模的大语言模型，由NVIDIA发布。模型提供了多种量化版本，适用于不同硬件环境。

模型特点

多种量化版本

提供从Q2_K到Q8_0共12种量化版本，满足不同硬件环境和性能需求

高效推理

优化的GGUF格式，适合在资源有限的设备上运行

Llama-3架构

基于最新的Llama-3架构，提供良好的文本生成能力

模型能力

文本生成

对话系统

内容创作

使用案例

对话系统

智能助手

可用于构建英文智能对话助手

内容生成

文章创作

可用于辅助英文文章写作

🚀 nvidia/Llama-3.1-Nemotron-Nano-8B-v1 - GGUF

本项目提供了nvidia/Llama-3.1-Nemotron-Nano-8B-v1的GGUF格式模型文件。这些文件能够助力文本生成任务，为相关领域的研究和应用提供有力支持。

反馈与支持：可通过TensorBlock的 Twitter/X、Telegram群组和 Discord服务器获取。

📚 详细文档

模型概述

本仓库包含了 nvidia/Llama-3.1-Nemotron-Nano-8B-v1 的GGUF格式模型文件。这些文件由 TensorBlock 提供的机器进行量化，并且与 commit b4882 版本的 llama.cpp 兼容。

我们的项目

项目名称	项目介绍	项目链接
Awesome MCP Servers	一个全面的模型上下文协议（MCP）服务器集合。	点击查看
TensorBlock Studio	一个轻量级、开放且可扩展的多LLM交互工作室。	点击查看

提示模板

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

模型文件规格

文件名	量化类型	文件大小	描述
Llama-3.1-Nemotron-Nano-8B-v1-Q2_K.gguf	Q2_K	3.179 GB	最小，但质量损失显著，不建议用于大多数场景
Llama-3.1-Nemotron-Nano-8B-v1-Q3_K_S.gguf	Q3_K_S	3.665 GB	非常小，但质量损失高
Llama-3.1-Nemotron-Nano-8B-v1-Q3_K_M.gguf	Q3_K_M	4.019 GB	非常小，但质量损失高
Llama-3.1-Nemotron-Nano-8B-v1-Q3_K_L.gguf	Q3_K_L	4.322 GB	小，质量损失较大
Llama-3.1-Nemotron-Nano-8B-v1-Q4_0.gguf	Q4_0	4.661 GB	旧版本；小，质量损失非常高，建议使用Q3_K_M
Llama-3.1-Nemotron-Nano-8B-v1-Q4_K_S.gguf	Q4_K_S	4.693 GB	小，质量损失更大
Llama-3.1-Nemotron-Nano-8B-v1-Q4_K_M.gguf	Q4_K_M	4.921 GB	中等，质量平衡，推荐使用
Llama-3.1-Nemotron-Nano-8B-v1-Q5_0.gguf	Q5_0	5.599 GB	旧版本；中等，质量平衡，建议使用Q4_K_M
Llama-3.1-Nemotron-Nano-8B-v1-Q5_K_S.gguf	Q5_K_S	5.599 GB	大，质量损失低，推荐使用
Llama-3.1-Nemotron-Nano-8B-v1-Q5_K_M.gguf	Q5_K_M	5.733 GB	大，质量损失非常低，推荐使用
Llama-3.1-Nemotron-Nano-8B-v1-Q6_K.gguf	Q6_K	6.596 GB	非常大，质量损失极低
Llama-3.1-Nemotron-Nano-8B-v1-Q8_0.gguf	Q8_0	8.541 GB	非常大，质量损失极低，不建议使用

下载说明

命令行方式

首先，安装Huggingface客户端：

pip install -U "huggingface_hub[cli]"

然后，将单个模型文件下载到本地目录：

huggingface-cli download tensorblock/Llama-3.1-Nemotron-Nano-8B-v1-GGUF --include "Llama-3.1-Nemotron-Nano-8B-v1-Q2_K.gguf" --local-dir MY_LOCAL_DIR

如果你想按模式（例如 *Q4_K*gguf）下载多个模型文件，可以尝试以下命令：

huggingface-cli download tensorblock/Llama-3.1-Nemotron-Nano-8B-v1-GGUF --local-dir MY_LOCAL_DIR --local-dir-use-symlinks False --include='*Q4_K*gguf'