DeepSeek-R1-Distill-Qwen-1.5B-GGUF开源语言模型 - 多自然语言处理任务免费可用

首页

Deepseek R1 Distill Qwen 1.5B GGUF

由 hdnh2006 开发

DeepSeek-R1-Distill-Qwen-1.5B 是一个经过蒸馏的1.5B参数规模的语言模型，基于Qwen架构，适用于多种自然语言处理任务。

大型语言模型

Transformers

开源协议:Apache-2.0 #蒸馏轻量模型 #多精度量化 #本地高效推理

下载量 482

发布时间 : 1/23/2025

模型简介

该模型是DeepSeek发布的蒸馏版Qwen-1.5B模型，经过量化处理，可在资源受限的环境中高效运行。

模型特点

高效量化

提供多种量化版本（从2位到8位），适应不同硬件需求

轻量级

1.5B参数规模，适合资源受限环境部署

多平台支持

支持通过Ollama、llama.cpp等多种方式运行

模型能力

文本生成

问答系统

对话生成

文本摘要

使用案例

智能助手

聊天机器人

构建轻量级对话系统

内容生成

文本创作辅助

帮助用户生成创意文本

🚀 DeepSeek-R1-Distill-Qwen-1.5B GGUF llama.cpp量化版 🧠🤖

本仓库包含使用 llama.cpp 对 DeepSeek-R1-Distill-Qwen-1.5B 进行量化后的 GGUF 格式模型文件。

所有模型均按照 llama.cpp 提供的说明进行量化，具体步骤如下：

# 获取官方LLaMA模型权重并将其放置在 ./models 目录下
ls ./models
llama-2-7b tokenizer_checklist.chk tokenizer.model
# [可选] 对于使用BPE分词器的模型
ls ./models
<包含权重和分词器JSON的文件夹> vocab.json
# [可选] 对于像Mistral-7B这样的PyTorch .bin模型
ls ./models
<包含权重和分词器JSON的文件夹>

# 安装Python依赖项
python3 -m pip install -r requirements.txt

# 将模型转换为ggml FP16格式
python3 convert_hf_to_gguf.py models/mymodel/

# 将模型量化为4位（使用Q4_K_M方法）
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M

# 如果旧版本的gguf文件类型现在不受支持，则将其更新到当前版本
./llama-quantize ./models/mymodel/ggml-model-Q4_K_M.gguf ./models/mymodel/ggml-model-Q4_K_M-v2.gguf COPY

🚀 快速开始

使用 Ollama 🦙

直接从 Ollama 运行

ollama run hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B

使用 huggingface-cli 下载模型 🤗

安装 `huggingface_hub[cli]`

pip install -U "huggingface_hub[cli]"

下载特定模型文件

huggingface-cli download hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B --include "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf" --local-dir ./

✨ 主要特性

提供多种量化类型的模型文件，以满足不同的性能和质量需求。
按照 llama.cpp 的标准流程进行量化，确保量化的准确性和可重复性。

📦 安装指南

模型量化

按照上述提供的量化步骤，可将原始模型转换为所需的量化格式。

依赖安装

需要安装 Python 依赖项，通过以下命令完成：

python3 -m pip install -r requirements.txt

💻 使用示例

使用 Ollama 运行模型

ollama run hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B

使用 huggingface-cli 下载模型

huggingface-cli download hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B --include "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf" --local-dir ./

📚 详细文档

模型详情

原始模型链接：https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

模型汇总 📋

文件名	量化类型	描述
DeepSeek-R1-Distill-Qwen-1.5B-F16.gguf	F16	半精度，未应用量化
DeepSeek-R1-Distill-Qwen-1.5B-Q8_0.gguf	Q8_0	8位量化，质量最高，文件大小最大
DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf	Q6_K	6位量化，质量非常高
DeepSeek-R1-Distill-Qwen-1.5B-Q5_1.gguf	Q5_1	5位量化，质量和大小平衡良好
DeepSeek-R1-Distill-Qwen-1.5B-Q5_K_M.gguf	Q5_K_M	5位量化，质量和大小平衡良好
DeepSeek-R1-Distill-Qwen-1.5B-Q5_K_S.gguf	Q5_K_S	5位量化，质量和大小平衡良好
DeepSeek-R1-Distill-Qwen-1.5B-Q5_0.gguf	Q5_0	5位量化，质量和大小平衡良好
DeepSeek-R1-Distill-Qwen-1.5B-Q4_1.gguf	Q4_1	4位量化，质量和大小平衡
DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf	Q4_K_M	4位量化，质量和大小平衡
DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_S.gguf	Q4_K_S	4位量化，质量和大小平衡
DeepSeek-R1-Distill-Qwen-1.5B-Q4_0.gguf	Q4_0	4位量化，质量和大小平衡
DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf	Q3_K_L	3位量化，文件大小更小，质量较低
DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_M.gguf	Q3_K_M	3位量化，文件大小更小，质量较低
DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_S.gguf	Q3_K_S	3位量化，文件大小更小，质量较低
DeepSeek-R1-Distill-Qwen-1.5B-Q2_K.gguf	Q2_K	2位量化，文件大小最小，质量最低

如何选择合适的文件 📈

Artefact2 在此处提供了带有性能图表的全面分析。

评估系统能力

确定模型大小：首先检查系统的 RAM 和 VRAM 可用量，这将帮助您决定可以运行的最大模型。
优化速度：
- GPU 利用率：为了尽可能快地运行模型，应使整个模型适合 GPU 的 VRAM。选择比总 VRAM 小 1 - 2GB 的版本。
最大化质量：
- 组合内存：为了获得最高质量，将系统 RAM 和 GPU 的 VRAM 相加。然后选择比这个组合总量小 1 - 2GB 的模型。

在 'I-Quant' 和 'K-Quant' 之间做出选择

简单性：
- K-Quant：如果您更喜欢简单的方法，请选择 K 量化模型。这些模型标记为 'QX_K_X'，例如 Q5_K_M。
高级配置：
- 功能图表：如需更细致的选择，请参考 llama.cpp 功能矩阵。
- I-Quant 模型：最适合 Q4 以下的配置以及运行 cuBLAS（Nvidia）或 rocBLAS（AMD）的系统。这些模型标记为 'IQX_X'，例如 IQ3_M，并且在相同大小下性能更好。
- 兼容性考虑：
  - I-Quant 模型：虽然可以在 CPU 和 Apple Metal 上使用，但与 K 量化模型相比，它们的性能较慢。在速度和性能之间需要进行重要权衡。
  - AMD 显卡：请确认您使用的是 rocBLAS 版本还是 Vulkan 版本。I 量化模型与 Vulkan 不兼容。
  - 当前支持：在撰写本文时，LM Studio 提供了支持 ROCm 的预览版，其他推理引擎也提供了特定的 ROCm 版本。