量化者:bartowski
任务类型:文本生成
语言:
- 英语
许可证链接:https://huggingface.co/huihui-ai/Qwen2.5-Coder-1.5B-Instruct-abliterated/blob/main/LICENSE
标签:
- 聊天
- 去审查
- 无限制
基础模型:huihui-ai/Qwen2.5-Coder-1.5B-Instruct-abliterated
许可证:apache-2.0
Qwen2.5-Coder-1.5B-Instruct-abliterated的Llamacpp imatrix量化版本
使用llama.cpp发布的b4058进行量化。
原始模型:https://huggingface.co/huihui-ai/Qwen2.5-Coder-1.5B-Instruct-abliterated
所有量化均使用imatrix选项,数据集来自此处。
在LM Studio中运行这些模型。
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
从下方下载文件(非整个分支):
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)为标准量化方法,但嵌入和输出权重使用Q8_0而非默认值。
有人认为这能提升品质,也有人未察觉差异。若您使用这些模型,请留言反馈您的发现。我希望了解这些量化版本是否被实际使用及有用,以便决定是否继续上传无人使用的量化版本。
感谢!
使用huggingface-cli下载
首先,确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,可指定目标文件:
huggingface-cli download bartowski/Qwen2.5-Coder-1.5B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-1.5B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
若模型超过50GB,将被拆分为多个文件。要下载全部文件至本地文件夹,运行:
huggingface-cli download bartowski/Qwen2.5-Coder-1.5B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-1.5B-Instruct-abliterated-Q8_0/*" --local-dir ./
可指定新本地目录(如Qwen2.5-Coder-1.5B-Instruct-abliterated-Q8_0)或直接下载至当前目录(./)。
Q4_0_X_X
这些量化版本不适用于Metal(苹果)卸载,仅适用于ARM芯片。
若使用ARM芯片,Q4_0_X_X量化版本将显著提速。查看Q4_0_4_4速度对比,请参考原始拉取请求。
要确定适合您ARM芯片的版本,可查看AArch64 SoC功能表(感谢EloyOn!)。
如何选择文件?
Artefact2提供了详细的性能对比图表,请参考此处。
首先需确定可运行的模型大小。为此,需了解您的RAM和/或VRAM容量。
若希望模型运行速度最快,需确保整个模型适配GPU的VRAM。选择文件大小比GPU总VRAM小1-2GB的量化版本。
若追求最高品质,将系统RAM与GPU的VRAM相加,并选择文件大小比该总值小1-2GB的量化版本。
接下来,需决定使用“I-quant”还是“K-quant”。
若不想过多思考,选择K-quant。格式为“QX_K_X”,如Q5_K_M。
若想深入了解,可查看此实用特性图表:
llama.cpp特性矩阵
简而言之,若目标低于Q4且运行cuBLAS(Nvidia)或rocBLAS(AMD),应考虑I-quant。格式为IQX_X,如IQ3_M。这些是新方法,在相同大小下性能更优。
I-quant也可用于CPU和Apple Metal,但速度慢于对应的K-quant,因此需权衡速度与性能。
I-quant不兼容Vulcan(同为AMD),若使用AMD显卡,请确认是否使用rocBLAS构建或Vulcan构建。截至本文撰写时,LM Studio提供ROCm支持的预览版,其他推理引擎也有针对ROCm的特定构建。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发嵌入/输出权重的实验。
想支持我的工作?访问我的ko-fi页面:https://ko-fi.com/bartowski