模型介绍
内容详情
替代品
模型简介
该模型是一个高性能的大型语言模型,适用于各种自然语言处理任务,提供从BF16到极低比特量化的多种版本,满足不同计算环境的需求。
模型特点
多种量化选项
提供从BF16到极低比特量化的多种版本,适应不同硬件环境和性能需求。
高质量推理
推荐使用Q6_K_L或Q5_K_M等量化版本,可在保持高质量的同时减少资源消耗。
硬件优化
支持ARM和AVX机器的在线重打包功能,优化在特定硬件上的性能。
新量化技术
采用I-quant等新型量化方法,在相同大小下提供更好的性能。
模型能力
文本生成
自然语言理解
推理任务处理
多轮对话
使用案例
通用自然语言处理
文本生成
生成高质量、连贯的文本内容
根据量化级别不同,生成质量有所差异
问答系统
构建知识问答和对话系统
能够处理复杂的推理问题
资源受限环境应用
移动设备部署
使用低比特量化版本在移动设备上运行
在有限资源下保持可用性能
## 从以下链接下载单个文件(非整个分支):
| 文件名 | 量化类型 | 文件大小 | 分片 | 描述 |
| -------- | ---------- | --------- | ----- | ----------- |
| [AceReason-Nemotron-14B-bf16.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-bf16.gguf) | bf16 | 29.55GB | false | 完整的BF16权重。 |
| [AceReason-Nemotron-14B-Q8_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q8_0.gguf) | Q8_0 | 15.70GB | false | 极高质量,通常不需要但为最高可用量化。 |
| [AceReason-Nemotron-14B-Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K_L.gguf) | Q6_K_L | 12.50GB | false | 嵌入和输出权重使用Q8_0。极高质量,接近完美,*推荐*。 |
| [AceReason-Nemotron-14B-Q6_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K.gguf) | Q6_K | 12.12GB | false | 极高质量,接近完美,*推荐*。 |
| [AceReason-Nemotron-14B-Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_L.gguf) | Q5_K_L | 10.99GB | false | 嵌入和输出权重使用Q8_0。高质量,*推荐*。 |
| [AceReason-Nemotron-14B-Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_M.gguf) | Q5_K_M | 10.51GB | false | 高质量,*推荐*。 |
| [AceReason-Nemotron-14B-Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_S.gguf) | Q5_K_S | 10.27GB | false | 高质量,*推荐*。 |
| [AceReason-Nemotron-14B-Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_L.gguf) | Q4_K_L | 9.57GB | false | 嵌入和输出权重使用Q8_0。良好质量,*推荐*。 |
| [AceReason-Nemotron-14B-Q4_1.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_1.gguf) | Q4_1 | 9.39GB | false | 传统格式,性能类似Q4_K_S,但在Apple芯片上token/瓦特表现更优。 |
| [AceReason-Nemotron-14B-Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf) | Q4_K_M | 8.99GB | false | 良好质量,大多数用例的默认大小,*推荐*。 |
| [AceReason-Nemotron-14B-Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_XL.gguf) | Q3_K_XL | 8.61GB | false | 嵌入和输出权重使用Q8_0。质量较低但可用,适合低RAM环境。 |
| [AceReason-Nemotron-14B-Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_S.gguf) | Q4_K_S | 8.57GB | false | 质量稍低但节省更多空间,*推荐*。 |
| [AceReason-Nemotron-14B-IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_NL.gguf) | IQ4_NL | 8.55GB | false | 类似IQ4_XS,但稍大。为ARM CPU推理提供在线重打包。 |
| [AceReason-Nemotron-14B-Q4_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_0.gguf) | Q4_0 | 8.54GB | false | 传统格式,为ARM和AVX CPU推理提供在线重打包。 |
| [AceReason-Nemotron-14B-IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_XS.gguf) | IQ4_XS | 8.12GB | false | 质量尚可,比Q4_K_S更小且性能相似,*推荐*。 |
| [AceReason-Nemotron-14B-Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_L.gguf) | Q3_K_L | 7.92GB | false | 质量较低但可用,适合低RAM环境。 |
| [AceReason-Nemotron-14B-Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_M.gguf) | Q3_K_M | 7.34GB | false | 低质量。 |
| [AceReason-Nemotron-14B-IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_M.gguf) | IQ3_M | 6.92GB | false | 中低质量,新方法,性能与Q3_K_M相当。 |
| [AceReason-Nemotron-14B-Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_S.gguf) | Q3_K_S | 6.66GB | false | 低质量,不推荐。 |
| [AceReason-Nemotron-14B-Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K_L.gguf) | Q2_K_L | 6.53GB | false | 嵌入和输出权重使用Q8_0。质量非常低但意外地可用。 |
| [AceReason-Nemotron-14B-IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XS.gguf) | IQ3_XS | 6.38GB | false | 质量较低,新方法,性能略优于Q3_K_S。 |
| [AceReason-Nemotron-14B-IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XXS.gguf) | IQ3_XXS | 5.95GB | false | 质量较低,新方法,性能与Q3量化相当。 |
| [AceReason-Nemotron-14B-Q2_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K.gguf) | Q2_K | 5.77GB | false | 质量非常低但意外地可用。 |
| [AceReason-Nemotron-14B-IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_M.gguf) | IQ2_M | 5.36GB | false | 质量相对较低,使用SOTA技术使其意外地可用。 |
| [AceReason-Nemotron-14B-IQ2_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_S.gguf) | IQ2_S | 5.00GB | false | 低质量,使用SOTA技术使其可用。 |
| [AceReason-Nemotron-14B-IQ2_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_XS.gguf) | IQ2_XS | 4.70GB | false | 低质量,使用SOTA技术使其可用。 |
## 嵌入/输出权重
部分量化(如Q3_K_XL、Q4_K_L等)为标准量化方法,但嵌入和输出权重被量化为Q8_0而非默认值。
## 使用huggingface-cli下载
<details>
<summary>点击查看下载说明</summary>
首先,确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,可以指定目标文件:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf" --local-dir ./
如果模型大于50GB,将被分割为多个文件。要下载所有文件到本地文件夹,运行:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q8_0/*" --local-dir ./
可以指定新的本地目录(nvidia_AceReason-Nemotron-14B-Q8_0)或直接下载到当前目录(./)
</details>
## ARM/AVX信息
以前,你会下载Q4_0_4_4/4_8/8_8,这些文件会在内存中交错权重以提高ARM和AVX机器的性能。
现在,有一种称为“在线重打包”的功能。详情见[此PR](https://github.com/ggerganov/llama.cpp/pull/9921)。如果使用Q4_0且硬件受益于重打包权重,它将自动进行。
从llama.cpp构建[b4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)开始,你将无法运行Q4_0_X_X文件,而需要使用Q4_0。
此外,如果想获得略好的质量,可以使用IQ4_NL,这要归功于[此PR](https://github.com/ggerganov/llama.cpp/pull/10541),它也会为ARM重打包权重(目前仅4_4)。加载时间可能更长,但总体上会提高速度。
<details>
<summary>点击查看Q4_0_X_X信息(已弃用)</summary>
保留此部分以展示使用Q4_0在线重打包的潜在性能提升。
</details>
## 如何选择文件?
<details>
<summary>点击查看详情</summary>
Artefact2提供了详细的性能图表[此处](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)
首先,确定你能运行的模型大小。为此,需要了解你的RAM和/或VRAM。
如果希望模型运行尽可能快,需要将整个模型放入GPU的VRAM中。选择一个文件大小比GPU总VRAM小1-2GB的量化。
如果追求最高质量,将系统RAM和GPU的VRAM相加,然后选择一个文件大小比总和小1-2GB的量化。
接下来,决定是否使用“I-quant”或“K-quant”。
如果不想过多思考,选择一个K-quant。格式为“QX_K_X”,如Q5_K_M。
如果想深入了解,可以查看这个非常有用的特性表:
[llama.cpp特性矩阵](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)
基本上,如果目标是低于Q4,并且运行cuBLAS(Nvidia)或rocBLAS(AMD),应该考虑I-quant。格式为IQX_X,如IQ3_M。这些是较新的量化方法,在相同大小下提供更好的性能。
这些I-quant也可用于CPU,但会比相应的K-quant慢,因此需要在速度与性能之间权衡。
</details>
## 致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw激发了对嵌入/输出权重的实验灵感。
感谢LM Studio赞助我的工作。
想支持我的工作?访问我的ko-fi页面:[https://ko-fi.com/bartowski](https://ko-fi.com/bartowski)
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文