🚀 DeepSeek-R1-Distill-Qwen-1.5B GGUF llama.cpp量化版 🧠🤖
本仓库包含使用 llama.cpp 对 DeepSeek-R1-Distill-Qwen-1.5B 进行量化后的 GGUF 格式模型文件。
所有模型均按照 llama.cpp 提供的 说明 进行量化,具体步骤如下:
ls ./models
llama-2-7b tokenizer_checklist.chk tokenizer.model
ls ./models
<包含权重和分词器JSON的文件夹> vocab.json
ls ./models
<包含权重和分词器JSON的文件夹>
python3 -m pip install -r requirements.txt
python3 convert_hf_to_gguf.py models/mymodel/
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M
./llama-quantize ./models/mymodel/ggml-model-Q4_K_M.gguf ./models/mymodel/ggml-model-Q4_K_M-v2.gguf COPY
🚀 快速开始
使用 Ollama 🦙
直接从 Ollama 运行
ollama run hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B
使用 huggingface-cli 下载模型 🤗
安装 huggingface_hub[cli]
pip install -U "huggingface_hub[cli]"
下载特定模型文件
huggingface-cli download hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B --include "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf" --local-dir ./
✨ 主要特性
- 提供多种量化类型的模型文件,以满足不同的性能和质量需求。
- 按照 llama.cpp 的标准流程进行量化,确保量化的准确性和可重复性。
📦 安装指南
模型量化
按照上述提供的量化步骤,可将原始模型转换为所需的量化格式。
依赖安装
需要安装 Python 依赖项,通过以下命令完成:
python3 -m pip install -r requirements.txt
💻 使用示例
使用 Ollama 运行模型
ollama run hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B
使用 huggingface-cli 下载模型
huggingface-cli download hdnh2006/DeepSeek-R1-Distill-Qwen-1.5B --include "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf" --local-dir ./
📚 详细文档
模型详情
原始模型链接:https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
模型汇总 📋
如何选择合适的文件 📈
Artefact2 在 此处 提供了带有性能图表的全面分析。
评估系统能力
- 确定模型大小:首先检查系统的 RAM 和 VRAM 可用量,这将帮助您决定可以运行的最大模型。
- 优化速度:
- GPU 利用率:为了尽可能快地运行模型,应使整个模型适合 GPU 的 VRAM。选择比总 VRAM 小 1 - 2GB 的版本。
- 最大化质量:
- 组合内存:为了获得最高质量,将系统 RAM 和 GPU 的 VRAM 相加。然后选择比这个组合总量小 1 - 2GB 的模型。
在 'I-Quant' 和 'K-Quant' 之间做出选择
- 简单性:
- K-Quant:如果您更喜欢简单的方法,请选择 K 量化模型。这些模型标记为 'QX_K_X',例如 Q5_K_M。
- 高级配置:
- 功能图表:如需更细致的选择,请参考 llama.cpp 功能矩阵。
- I-Quant 模型:最适合 Q4 以下的配置以及运行 cuBLAS(Nvidia)或 rocBLAS(AMD)的系统。这些模型标记为 'IQX_X',例如 IQ3_M,并且在相同大小下性能更好。
- 兼容性考虑:
- I-Quant 模型:虽然可以在 CPU 和 Apple Metal 上使用,但与 K 量化模型相比,它们的性能较慢。在速度和性能之间需要进行重要权衡。
- AMD 显卡:请确认您使用的是 rocBLAS 版本还是 Vulkan 版本。I 量化模型与 Vulkan 不兼容。
- 当前支持:在撰写本文时,LM Studio 提供了支持 ROCm 的预览版,其他推理引擎也提供了特定的 ROCm 版本。
📄 许可证
本项目采用 Apache-2.0 许可证。
🌐 联系信息
- 网站:henrynavarro.org
- 邮箱:public.contact.rerun407@simplelogin.com