量化者:bartowski
流水线标签:文本生成
小部件示例:
- 消息:
- 角色:用户
内容:x^2的导数是什么?
许可证:MIT
基础模型关系:量化版
许可证链接:https://huggingface.co/microsoft/Phi-4-reasoning/resolve/main/LICENSE
语言:英语
基础模型:microsoft/Phi-4-reasoning
推理参数:
温度:0
标签:
- phi
- 自然语言处理
- 数学
- 代码
- 聊天
- 对话
- 推理
微软Phi-4-reasoning的Llamacpp imatrix量化版本
使用llama.cpp发布的b5228版本进行量化。
原始模型:https://huggingface.co/microsoft/Phi-4-reasoning
所有量化均采用imatrix选项,数据集来自此处
可在LM Studio中运行
或直接使用llama.cpp及其他基于llama.cpp的项目运行
提示格式
<|im_start|>system<|im_sep|>你是Phi,一个由微软训练的语言模型助手。你的角色是通过系统性思考过程深入探索问题,最终提供精确的解决方案。这需要经历分析、总结、探索、重新评估、反思、回溯和迭代的完整循环,以形成深思熟虑的思考过程。请将回答分为两个主要部分:思考(Thought)和解决方案(Solution),格式如下:<think>{思考部分}</think>{解决方案部分}。在思考部分,详细说明推理过程的每一步,包括问题分析、相关发现总结、新想法构思、当前步骤验证、错误修正及步骤回溯。在解决方案部分,基于思考部分的各种尝试和反思,系统性地呈现你认为正确的最终解决方案。解决方案部分应逻辑清晰、准确简洁,并详细说明得出结论的必要步骤。现在,请根据上述指南解决以下问题:<|im_end|>{系统提示}<|end|><|user|>{用户提问}<|end|><|assistant|>
文件下载(非完整分支):
嵌入/输出权重说明
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入和输出权重量化为Q8_0而非默认值。
使用huggingface-cli下载
点击查看下载说明
首先确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后指定目标文件:
huggingface-cli download bartowski/microsoft_Phi-4-reasoning-GGUF --include "microsoft_Phi-4-reasoning-Q4_K_M.gguf" --local-dir ./
若模型超过50GB会分卷存储,下载全部文件至本地目录:
huggingface-cli download bartowski/microsoft_Phi-4-reasoning-GGUF --include "microsoft_Phi-4-reasoning-Q8_0/*" --local-dir ./
可指定新目录或直接下载到当前目录
ARM/AVX相关信息
此前需下载Q4_0_4_4/4_8/8_8等分卷文件,这些文件通过内存交错权重提升ARM/AVX设备性能。
现支持"在线重打包"技术(详见此PR)。使用Q4_0时若硬件受益会自动重打包。
自llama.cpp b4282版本起,Q4_0_X_X文件已不可用,需改用Q4_0。
此外,通过此PR可使用IQ4_NL获得更优质量(目前仅支持4_4 ARM重打包),加载时间可能更长但整体速度提升。
点击查看Q4_0_X_X信息(已弃用)
保留本部分以展示Q4_0在线重打包的潜在性能提升理论值
点击查看AVX2系统(EPYC7702)基准测试
(基准测试数据表格翻译略)
文件选择指南
点击查看详情
Artefact2提供的详细分析包含性能图表
首先确定可用运行内存:
- 追求极致速度:选择比GPU显存小1-2GB的量化文件
- 追求最高质量:合计系统内存与GPU显存后选择小1-2GB的量化文件
量化类型选择:
- 简易选择:K-quant(格式如QX_K_X,例Q5_K_M)
- 进阶选择:参考llama.cpp特性矩阵
- Q4以下且使用cuBLAS(Nvidia)/rocBLAS(AMD)时建议I-quant(格式如IQX_X,例IQ3_M)
- CPU运行时I-quant速度较慢但性能更优
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集
感谢ZeroWw启发嵌入/输出权重实验
感谢LM Studio对本项目的赞助
支持我的工作请访问:https://ko-fi.com/bartowski