量化者:bartowski
任务标签:图文转文本
标签:
- gemma3
- gemma
- google
许可证:gemma
额外授权按钮内容:确认许可
基础模型关联:量化版本
额外授权标题:在Hugging Face访问Gemma
额外授权提示:
要访问Hugging Face上的Gemma,您需审阅并同意Google的使用许可。请确保已登录Hugging Face并点击下方按钮。请求将即时处理。
基础模型:google/gemma-3-27b-it-qat-q4_0-unquantized
Google gemma-3-27b-it-qat的Llamacpp imatrix量化版本
这些量化模型基于Google提供的量化感知训练(QAT)权重生成。
仅 Q4_0预期表现更优,但制作过程中也生成了其他量化版本以供探索。
gemma-3-27b-it-qat-Q4_0.gguf | Q4_0 | 15.62GB | 因QAT改进,支持ARM和AVX CPU在线重打包推理。
使用llama.cpp版本b5147进行量化。
原始模型:https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-unquantized
所有量化版本均采用imatrix选项,数据集来自此处
在LM Studio中运行
或通过llama.cpp及任何基于llama.cpp的项目直接运行
提示词格式
<bos><start_of_turn>user
{系统提示}
{用户输入}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
文件下载(非完整分支)
嵌入/输出层权重
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但将嵌入层和输出层权重量化为Q8_0而非默认类型。
使用huggingface-cli下载
点击查看下载说明
首先确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后指定目标文件:
huggingface-cli download bartowski/google_gemma-3-27b-it-qat-GGUF --include "google_gemma-3-27b-it-qat-Q4_K_M.gguf" --local-dir ./
若模型超过50GB会分片存储,下载全部文件至本地目录:
huggingface-cli download bartowski/google_gemma-3-27b-it-qat-GGUF --include "google_gemma-3-27b-it-qat-Q8_0/*" --local-dir ./
可指定新目录(google_gemma-3-27b-it-qat-Q8_0)或直接下载至当前目录(./)
ARM/AVX相关信息
旧版需下载Q4_0_4_4/4_8/8_8等文件,这些文件通过内存交错权重提升ARM/AVX设备性能。
现支持"在线重打包"技术(详见此PR),使用Q4_0时若硬件受益会自动实时重打包。
自llama.cpp b4282版本起,Q4_0_X_X文件已不可用,需改用Q4_0。
通过此PR还可使用IQ4_NL获得更优质量(目前仅支持4_4 ARM重打包),加载稍慢但整体加速。
点击查看Q4_0_X_X信息(已弃用)
保留此部分展示在线重打包Q4_0的潜在性能提升。
点击查看AVX2系统(EPYC7702)基准测试
(基准测试数据表格略)
Q4_0_8_8在提示处理和小文本生成上均有提升
文件选择指南
点击查看详情
Artefact2提供的详细分析包含性能图表。
首先计算可用内存:
- 追求极致速度:选择比GPU显存小1-2GB的量化版本
- 追求最高质量:合计系统内存+GPU显存后选择小1-2GB的版本
其次选择量化类型:
- 简易选择:K-quant(格式如QX_K_X,例Q5_K_M)
- 进阶参考:llama.cpp特性矩阵
- 若目标低于Q4且使用cuBLAS(Nvidia)/rocBLAS(AMD):推荐I-quant(格式如IQX_X,例IQ3_M)。CPU上也可用但速度较慢。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发嵌入/输出层实验。
感谢LM Studio对本工作的赞助。
支持我的工作?访问我的ko-fi页面:https://ko-fi.com/bartowski