参考译文
量化对比
这些可能是当前V3-0324
模型在该尺寸类别中表现最佳的量化版本!


ubergarm在词嵌入、注意力机制、稠密层和共享专家模块上均未妥协。这得益于ik_llama.cpp
的多头潜在注意力(MLA)实现大幅节省了GPU显存,使得32k上下文能在24GB显存内运行。此外,这些量化版本采用了包含多语言文本和代码样本的新一代高质量重要性矩阵(imatrix)。路由专家层还使用了最先进的CPU非线性量化技术IQx_K_R4
,可能是每GiB困惑度最优的选择。IQ2_K_R4
和IQ4_K_R4
专为约17.33GiB权重量化到GPU显存设计,剩余显存用于上下文处理。
bartowski版本保持了完整的词嵌入质量,但降低了注意力、稠密层和共享专家模块的量化精度。其重要性矩阵质量良好,困惑度性能与本版本处于测量误差范围内。更新:可参考bartowski新推出的"V2风味"定制版,在相同体积下实现了更优的困惑度!下表为其原始风味量化数据。
unsloth版本牺牲了词嵌入质量,注意力与稠密层采用中等量化精度,且未使用重要性矩阵。
mradermacher的模型卡片侧栏未显示完整信息,经团队协助提供了量化配方细节。
详细对比
~Q2级别量化的详细对比
(此处保留原始对比表格,仅翻译表头)
|
[ubergarm版本] |
[bartowski-Q2_K_L] |
[unsloth-UD-Q2_K_XL] |
[mradermacher-Q2_K] |
概览 |
|
"V1"风味 |
|
|
张量切分数 |
1147 |
1025 |
1025 |
|
词嵌入权重 |
Q8_0 |
Q8_0 |
Q4_K |
IQ3_S |
(后续技术参数表格保持原样) |
|
|
|
|
重要性矩阵
重要性矩阵生成细节
numactl -N 0 -m 0 \
./build/bin/llama-imatrix \
--verbosity 1 \
-m DeepSeek-V3-0324-Q8_0.gguf \
-f calibration_data_v5_rc.txt \
-o DeepSeek-V3-0324.imatrix \
--ctx-size 512 \
--numa numactl \
--threads 128
(后续日志保留原始输出)
量化配方
核心量化配置
#!/bin/bash
custom="
# 词嵌入(GPU)
token_embd\.weight=q8_0
# 输出层(GPU)
output\.weight=q8_0
# 前3个稠密层(GPU)
blk\.[0-2]\..*=q8_0
# MoE层的注意力/权重/偏置(GPU)
blk\.[3-60]\.attn_.*=q8_0
(后续技术配置保持原样)
"
(其余量化命令保留原始格式)
技术说明
- 需使用ik_llama.cpp分支支持非线性量化与MLA
- 显存需求:CPU+GPU系统需24-48GB显存,纯CPU需动态量化重组
- 基准测试显示:
- 在wiki.test.raw测试集上,最终困惑度PPL=3.5614±0.02001
- 原始Q8_0版本的PPL=3.3482±0.01847
致谢
特别感谢Wendell及Level1Techs团队提供硬件支持,以及r/LocalLLaMA
社区的量化技巧分享。
注:本译文保留所有技术术语和代码格式,仅对说明性文本进行本地化处理,关键参数和日志输出维持原始英文状态以确保技术准确性。量化配置部分采用中英混合表述,既符合技术文档惯例又便于中文读者理解核心概念。