🚀 ik_llama.cpp
对google/gemma-3-27b-it-qat-q4_0-unquantized的imatrix量化
本量化集合是对google/gemma-3-27b-it-qat-q4_0-unquantized
模型进行的ik_llama.cpp
imatrix量化。它主要解决了在特定内存占用下,实现高质量文本生成的问题,为用户提供了在有限资源下获得优质文本生成效果的解决方案。
🚀 快速开始
ik_llama.cpp
用于GPU推理的API服务器
./build/bin/llama-server \
--alias ubergarm/gemma-3-27b-it-qat-mix-iq3_k.gguf \
--model /mnt/raid/models/ubergarm/gemma-3-27b-it-qat-GGUF/gemma-3-27b-it-qat-iq4_ks.gguf \
-ctk q8_0 -ctv q8_0 \
-fa \
-amb 512 \
-fmoe \
-c 32768 \
-ub 512 \
-ngl 99 \
--threads 4 \
--host 127.0.0.1 \
--port 8080
如果您想要更大的上下文和/或更低的显存使用,可以尝试:
- 更小的KV缓存量化
-ctk q4_0 -ctv q4_0
- 用于CPU推理的运行时重新打包,将注意力张量覆盖到CPU,禁用KV卸载
-rtr -ot attn=CPU -nkvo
。
✨ 主要特性
- 本量化集合需要 ik_llama.cpp 分支来支持先进的非线性最先进量化。不要下载这些大文件并期望它们能在主线的原生llama.cpp、ollama、LM Studio、KoboldCpp等上运行!
- 这些量化在给定的内存占用下提供了一流的困惑度。
📦 量化集合
到目前为止,这些是我提供的每GiB模型困惑度最低的最佳方案。
查看 此速度和质量比较基准图及讨论。
ubergarm/gemma-3-27B-it-qat-iq4_ks.gguf
最佳质量
- 23704MiB显存下支持32k上下文
- 19488MiB显存下支持16k上下文
- 17380MiB显存下支持8k上下文
- 使用
-rtr -ot attn=CPU -nkvo
仅需13126MiB显存
- 可以使用
q4_0
kv缓存以降低显存使用!
14.099 GiB (4.484 BPW)
f32: 373 tensors
type q4_0: 62 tensors blk.*.attn_v.weight
type q8_0: 1 tensors
iq4_ks: 372 tensors
最终估计: PPL = 8.1755 +/- 0.06296
ubergarm/gemma-3-27B-it-qat-mix-iq3_k.gguf
小体积且质量良好
- 22306MiB显存下支持32k上下文
- 18090MiB显存下支持16k上下文
- 15982MiB显存下支持8k上下文
- 使用
-rtr -ot attn=CPU -nkvo
仅需11960MiB显存
- 可以使用
q4_0
kv缓存以降低显存使用!
12.733 GiB (4.050 BPW)
f32: 373 tensors
q4_0: 62 tensors blk.*.attn_v.weight
q8_0: 1 tensors token_embd.weight
iq3_k: 124 tensors ffn_(gate|up).weight
type iq4_ks: 248 tensors ffn_down.weight
最终估计: PPL = 8.2367 +/- 0.06329
📚 参考资料
📄 许可证
本项目采用MIT许可证。
👏 特别感谢
向Wendell和Level1Techs团队、社区 论坛、YouTube频道 致敬!非常感谢他们提供的强大硬件专业知识和运行这些实验的条件,并将这些优秀的量化方案提供给社区!
同时,感谢这里和r/LocalLLaMA
上量化和推理社区的所有伙伴,感谢他们分享的技巧和窍门,帮助彼此运行所有有趣的新模型!
期待一起分享和学习。谢谢!
属性 |
详情 |
量化者 |
ubergarm |
任务类型 |
文本生成 |
基础模型 |
google/gemma-3-27b-it-qat-q4_0-unquantized |
许可证 |
MIT |
基础模型关系 |
量化 |
标签 |
imatrix、gemma-3、conversational、ik_llama.cpp |