基础模型: openerotica/writing-roleplay-20k-context-nemo-12b-v1.0
任务类型: 文本生成
量化者: bartowski
writing-roleplay-20k-context-nemo-12b-v1.0的Llamacpp imatrix量化版本
使用llama.cpp发布的b3901版本进行量化。
原始模型: https://huggingface.co/openerotica/writing-roleplay-20k-context-nemo-12b-v1.0
所有量化均使用imatrix选项,数据集来自此处
可在LM Studio中运行
提示格式
未找到提示格式,请查看原始模型页面
从下方下载单个文件(非整个分支):
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)为标准量化方法,但嵌入和输出权重量化为Q8_0而非默认值。
有人认为这能提升质量,也有人未察觉差异。如果您使用这些模型,请留言反馈您的发现。我希望了解这些量化版本是否被实际使用且有价值,以免继续上传无人使用的量化版本。
感谢!
使用huggingface-cli下载
首先,确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,可以指定下载目标文件:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q4_K_M.gguf" --local-dir ./
如果模型大小超过50GB,会被分割为多个文件。要下载全部文件到本地目录,运行:
huggingface-cli download bartowski/writing-roleplay-20k-context-nemo-12b-v1.0-GGUF --include "writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0/*" --local-dir ./
可以指定新的本地目录(如writing-roleplay-20k-context-nemo-12b-v1.0-Q8_0)或直接下载到当前目录(./)
Q4_0_X_X
这些量化版本不适用于Metal(苹果)卸载,仅适用于ARM芯片。
如果使用ARM芯片,Q4_0_X_X量化版本会有显著加速。查看Q4_0_4_4的速度对比原始拉取请求
要确定哪种最适合您的ARM芯片,可以查看AArch64 SoC特性(感谢EloyOn!)
如何选择文件?
Artefact2提供了详细的性能对比图表此处
首先需要确定能运行的模型大小。为此,需了解您的RAM和/或VRAM容量。
如果希望模型运行速度最快,需确保整个模型能放入GPU的VRAM。选择比GPU总VRAM小1-2GB的量化版本。
如果追求最高质量,将系统RAM和GPU的VRAM相加,选择比总和小1-2GB的量化版本。
接下来,需决定使用'I-quant'还是'K-quant'。
如果不想过多思考,选择K-quant。格式为'QX_K_X',如Q5_K_M。
如需更深入了解,可查看此实用特性图表:
llama.cpp特性矩阵
简而言之,如果目标低于Q4,且运行cuBLAS(Nvidia)或rocBLAS(AMD),应考虑I-quant。格式为IQX_X,如IQ3_M。这些是新方法,在相同大小下性能更优。
I-quant也可用于CPU和Apple Metal,但速度会慢于对应的K-quant,因此需权衡速度与性能。
I-quant不兼容Vulcan(也是AMD),因此如果使用AMD显卡,请确认是rocBLAS构建还是Vulcan构建。截至本文撰写时,LM Studio有支持ROCm的预览版,其他推理引擎也有针对ROCm的特定构建。
致谢
感谢kalomaze和Dampf协助创建imatrix校准