许可证: mit
库名称: transformers
流水线标签: text-generation
标签:
- 代码
- deepseek
- gguf
- bf16
指标:
- 准确率
语言:
- 英文
- 中文
DeepSeek-V2-Chat-GGUF

量化自 https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat
使用 llama.cpp b3026 进行量化。由于 llama.cpp 版本更新迅速,此方法可能会随时间变化。
请设置以下元数据 KV 覆盖项。
使用方法:
下载 bf16 版本:
- 找到相关目录
- 下载所有文件
- 运行 merge.py
- 合并后的 GGUF 文件将生成
下载量化版本:
- 找到相关目录
- 下载所有文件
- 指向第一个分片(大多数程序现在应能自动加载所有分片)
在 llama.cpp 中运行:
启动命令行聊天模式(聊天补全):
main -m DeepSeek-V2-Chat.{quant}.gguf -c {上下文长度} --color -c (-i)
使用 llama.cpp 的 OpenAI 兼容服务器:
server \
-m DeepSeek-V2-Chat.{quant}.gguf \
-c {上下文长度} \
(--color [推荐:支持彩色输出的终端]) \
(-i [注意:交互模式]) \
(--mlock [注意:避免使用交换内存]) \
(--verbose) \
(--log-disable [注意:禁用日志文件,可能适用于生产环境]) \
(--metrics [注意:Prometheus 兼容的监控端点]) \
(--api-key [字符串]) \
(--port [整数]) \
(--flash-attn [注意:必须完全卸载到支持的 GPU])
生成重要性矩阵:
imatrix \
-m DeepSeek-V2-Chat.{quant}.gguf \
-f groups_merged.txt \
--verbosity [0, 1, 2] \
-ngl {GPU 卸载;必须使用 CUDA 编译} \
--ofreq {推荐:1}
生成量化版本:
quantize \
DeepSeek-V2-Chat.bf16.gguf \
DeepSeek-V2-Chat.{quant}.gguf \
{量化类型} \
(--imatrix [文件])
注意:仅当能完全卸载到 GPU 时使用 iMatrix 量化,否则速度会受影响。
量化版本:
量化类型 |
状态 |
大小 |
描述 |
KV 元数据 |
加权 |
备注 |
BF16 |
可用 |
439 GB |
无损 :) |
旧版 |
否 |
Q8_0 适用于大多数情况 |
Q8_0 |
可用 |
233.27 GB |
高质量 推荐 |
更新 |
是 |
|
Q8_0 |
可用 |
~110 GB |
高质量 推荐 |
更新 |
是 |
|
Q5_K_M |
可用 |
155 GB |
中高质量 推荐 |
更新 |
是 |
|
Q4_K_M |
可用 |
132 GB |
中等质量 推荐 |
旧版 |
否 |
|
Q3_K_M |
可用 |
104 GB |
中低质量 |
更新 |
是 |
|
IQ3_XS |
可用 |
89.6 GB |
优于 Q3_K_M |
旧版 |
是 |
|
Q2_K |
可用 |
80.0 GB |
低质量 不推荐 |
旧版 |
否 |
|
IQ2_XXS |
可用 |
61.5 GB |
更低质量 不推荐 |
旧版 |
是 |
|
IQ1_M |
上传中 |
27.3 GB |
极低质量 不推荐 |
旧版 |
是 |
测试用途;至少使用 IQ2 |
计划中的量化版本(加权/iMatrix):
计划量化类型 |
备注 |
Q5_K_S |
|
Q4_K_S |
|
Q3_K_S |
|
IQ4_XS |
|
IQ2_XS |
|
IQ2_S |
|
IQ2_M |
|
元数据 KV 覆盖项(使用 --override-kv
传递,可多次指定):
deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
许可证:
- DeepSeek 模型权重许可证,可在本仓库根目录的
LICENSE
文件中找到
- 仓库代码使用 MIT 许可证
性能:
~1.5t/s 使用 Ryzen 3 3700x(96GB 3200MHz)[Q2_K]
iMatrix:
在本仓库根目录找到 imatrix.dat
,使用包含 62 个块的 Q2_K
量化生成(更多信息见:https://github.com/ggerganov/llama.cpp/issues/5153#issuecomment-1913185693)
使用 groups_merged.txt
,下载地址:https://github.com/ggerganov/llama.cpp/discussions/5263#discussioncomment-8395384
审查:
此模型有一定审查机制,在有毒 DPO 数据上微调可能有所帮助。