Deepseek V2 Chat GGUF

由 leafspark 开发

DeepSeek-V2-Chat 的 GGUF 量化版本，适用于本地部署和运行。

大型语言模型

支持多种语言

开源协议:MIT #多语言对话 #高效量化 #长上下文支持

下载量 1,388

发布时间 : 5/17/2024

模型介绍

内容详情

替代品

模型简介

DeepSeek-V2-Chat 是一个基于 GGUF 量化的大语言模型，支持中英文文本生成任务。该模型通过 llama.cpp 进行量化，适用于本地推理。

模型特点

多量化版本支持

提供从 BF16 到 IQ1_M 的多种量化版本，满足不同硬件和性能需求。

本地高效运行

通过 llama.cpp 支持本地部署，适用于无云端依赖的推理场景。

中英文支持

模型支持中英文文本生成任务，适用于多语言应用场景。

模型能力

文本生成

聊天补全

代码生成

使用案例

聊天应用

命令行聊天模式

通过 llama.cpp 运行命令行聊天模式，支持交互式对话。

API 服务

OpenAI 兼容服务器

部署为 OpenAI 兼容的 API 服务，支持远程调用。

许可证: mit
库名称: transformers
流水线标签: text-generation
标签:

代码
deepseek
gguf
bf16
指标:
准确率
语言:
英文
中文

DeepSeek-V2-Chat-GGUF

image/jpeg

量化自 https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat

使用 llama.cpp b3026 进行量化。由于 llama.cpp 版本更新迅速，此方法可能会随时间变化。

请设置以下元数据 KV 覆盖项。

使用方法:

下载 bf16 版本:

找到相关目录
下载所有文件
运行 merge.py
合并后的 GGUF 文件将生成

下载量化版本:

找到相关目录
下载所有文件
指向第一个分片（大多数程序现在应能自动加载所有分片）

在 llama.cpp 中运行:

启动命令行聊天模式（聊天补全）:

main -m DeepSeek-V2-Chat.{quant}.gguf -c {上下文长度} --color -c (-i)

使用 llama.cpp 的 OpenAI 兼容服务器:

server \  
  -m DeepSeek-V2-Chat.{quant}.gguf \  
  -c {上下文长度} \  
  (--color [推荐：支持彩色输出的终端]) \  
  (-i [注意：交互模式]) \  
  (--mlock [注意：避免使用交换内存]) \  
  (--verbose) \  
  (--log-disable [注意：禁用日志文件，可能适用于生产环境]) \  
  (--metrics [注意：Prometheus 兼容的监控端点]) \  
  (--api-key [字符串]) \  
  (--port [整数]) \  
  (--flash-attn [注意：必须完全卸载到支持的 GPU])

生成重要性矩阵:

imatrix \  
  -m DeepSeek-V2-Chat.{quant}.gguf \  
  -f groups_merged.txt \  
  --verbosity [0, 1, 2] \  
  -ngl {GPU 卸载；必须使用 CUDA 编译} \  
  --ofreq {推荐：1}

生成量化版本:

quantize \  
  DeepSeek-V2-Chat.bf16.gguf \  
  DeepSeek-V2-Chat.{quant}.gguf \  
  {量化类型} \  
  (--imatrix [文件])

注意：仅当能完全卸载到 GPU 时使用 iMatrix 量化，否则速度会受影响。

量化版本:

量化类型	状态	大小	描述	KV 元数据	加权	备注
BF16	可用	439 GB	无损 :)	旧版	否	Q8_0 适用于大多数情况
Q8_0	可用	233.27 GB	高质量推荐	更新	是
Q8_0	可用	~110 GB	高质量推荐	更新	是
Q5_K_M	可用	155 GB	中高质量推荐	更新	是
Q4_K_M	可用	132 GB	中等质量推荐	旧版	否
Q3_K_M	可用	104 GB	中低质量	更新	是
IQ3_XS	可用	89.6 GB	优于 Q3_K_M	旧版	是
Q2_K	可用	80.0 GB	低质量不推荐	旧版	否
IQ2_XXS	可用	61.5 GB	更低质量不推荐	旧版	是
IQ1_M	上传中	27.3 GB	极低质量不推荐	旧版	是	测试用途；至少使用 IQ2

计划中的量化版本（加权/iMatrix）:

计划量化类型	备注
Q5_K_S
Q4_K_S
Q3_K_S
IQ4_XS
IQ2_XS
IQ2_S
IQ2_M

元数据 KV 覆盖项（使用 --override-kv 传递，可多次指定）:

deepseek2.attention.q_lora_rank=int:1536  
deepseek2.attention.kv_lora_rank=int:512  
deepseek2.expert_shared_count=int:2  
deepseek2.expert_feed_forward_length=int:1536  
deepseek2.expert_weights_scale=float:16  
deepseek2.leading_dense_block_count=int:1  
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707