量化者:bartowski
流水线标签:文本生成
额外授权说明:若想了解我们如何处理您的个人数据,请阅读我们的隐私政策。
基础模型:mistralai/Mistral-Small-24B-Instruct-2501
推理支持:否
支持语言:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 中文
- 日语
- 俄语
- 韩语
许可证:Apache-2.0
Mistral-Small-24B-Instruct-2501的Llamacpp imatrix量化版本
使用llama.cpp版本b4585进行量化。
原始模型:https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
所有量化均采用imatrix选项,数据集来自此处
可在LM Studio中运行
或直接通过llama.cpp及其他基于llama.cpp的项目运行
提示词格式
<s>[SYSTEM_PROMPT]{系统提示}[/SYSTEM_PROMPT][INST]{提示}[/INST]
从下方下载单个文件(非整个分支):
嵌入/输出权重说明
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0而非默认类型。
使用huggingface-cli下载
点击查看下载说明
首先确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后指定目标文件:
huggingface-cli download bartowski/Mistral-Small-24B-Instruct-2501-GGUF --include "Mistral-Small-24B-Instruct-2501-Q4_K_M.gguf" --local-dir ./
若模型超过50GB会分片存储,下载全部文件到本地目录:
huggingface-cli download bartowski/Mistral-Small-24B-Instruct-2501-GGUF --include "Mistral-Small-24B-Instruct-2501-Q8_0/*" --local-dir ./
可指定新目录或直接下载到当前目录
ARM/AVX相关信息
此前需下载Q4_0_4_4/4_8/8_8等版本,这些文件通过内存交错提升ARM/AVX设备性能。
现支持"在线重组"功能,详见此PR。使用Q4_0时若硬件受益会自动重组。
自llama.cpp b4282版本起,Q4_0_X_X文件已废弃,需改用Q4_0。
通过此PR还可使用IQ4_NL(目前仅支持4_4重组),加载稍慢但整体加速。
点击查看Q4_0_X_X信息(已废弃)
保留本段以展示在线重组Q4_0的潜在性能提升
点击查看AVX2系统(EPYC7702)基准测试
(基准测试数据表格翻译略)
文件选择指南
点击查看详情
Artefact2提供的详细分析包含性能图表
首先确定可用内存:
- 追求极速:选择比GPU显存小1-2GB的量化版本
- 追求最高质量:合计系统内存+GPU显存后选择小1-2GB的版本
量化类型选择:
- 简易选择:K-quant(格式如QX_K_X,例Q5_K_M)
- 进阶选择:参考llama.cpp特性矩阵
- Q4以下且使用cuBLAS(Nvidia)/rocBLAS(AMD)时建议I-quant(格式如IQX_X,例IQ3_M)
- I-quant在CPU/Apple Metal上速度较慢
- I-quant不兼容Vulkan(AMD需确认使用rocBLAS还是Vulkan构建)
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集
感谢ZeroWw启发嵌入/输出层实验
感谢LM Studio对本项目的赞助
支持我的工作:https://ko-fi.com/bartowski