许可证名称: qwen-research
许可证链接: https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE
语言:
- 英文
任务标签: 图文生成
标签:
- 多模态
库名称: transformers
Qwen2.5-VL-3B-Instruct GGUF模型
这些文件已使用imatrix文件和最新的llama.cpp构建。您必须使用llama.cpp的分支版本才能在该模型上使用视觉功能。
如何使用Qwen 2.5 VL Instruct与llama.cpp
要利用llama.cpp
中对Qwen 2.5 VL的实验性支持,请按照以下步骤操作:
注意:目前主分支不支持该模型的视觉功能,需使用分叉版本。
-
克隆最新的llama.cpp分叉版本:
git clone https://github.com/HimariO/llama.cpp.qwen2vl.git
cd llama.cpp.qwen2vl
git checkout qwen25-vl-20250404
-
构建Llama.cpp:
按照常规方式构建llama.cpp:https://github.com/ggml-org/llama.cpp#building-the-project
构建完成后,将./llama.cpp.qwen2vl/build/bin/llama-qwen2-vl-cli
复制到指定文件夹。
- 下载Qwen 2.5 VL的gguf文件:
https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/tree/main
选择文件名中不包含"mmproj"的gguf文件。
示例gguf文件:https://huggingface.co/Mungert/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/Qwen2.5-VL-3B-Instruct-q8_0.gguf
将此文件复制到您的指定文件夹。
- 下载Qwen 2.5 VL的mmproj文件
https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/tree/main
选择文件名中包含"mmproj"的文件。
示例mmproj文件:https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf
将此文件复制到您的指定文件夹。
- 将图像复制到与gguf文件相同的文件夹,或适当调整路径。
在下面的示例中,gguf文件、图像和llama-qwen2vl-cli都位于同一文件夹。
示例图像:https://huggingface.co/Mungert/Qwen2.5-VL-3B-Instruct-GGUF/resolve/main/car-1.jpg
将此文件复制到您的指定文件夹。
- 运行CLI工具:
从您的指定文件夹运行:
llama-qwen2vl-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "描述这张图片。" --image ./car-1.jpg
IQ-DynamicGate超低位量化(1-2位)
我们最新的量化方法为超低位模型(1-2位)引入了精度自适应量化,在Llama-3-8B上经过基准测试验证有明显改进。该方法采用分层策略,在保持极高内存效率的同时保留准确性。
基准测试背景
所有测试均在Llama-3-8B-Instruct上进行:
- 标准困惑度评估流程
- 2048个token的上下文窗口
- 所有量化使用相同的提示集
方法
- 动态精度分配:
- 前/后25%的层 → IQ4_XS(选定层)
- 中间50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入/输出层使用Q5_K
- 相比标准1-2位量化减少38%误差传播
量化性能对比(Llama-3-8B)
量化方式 |
标准PPL |
DynamicGate PPL |
Δ PPL |
标准大小 |
DG大小 |
Δ大小 |
标准速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
关键指标:
- PPL = 困惑度(越低越好)
- Δ PPL = 从标准到DynamicGate的百分比变化
- 速度 = 推理时间(CPU avx2,2048 token上下文)
- 大小差异反映混合量化开销
主要改进:
- 🔥 IQ1_M 困惑度大幅降低43.9%(27.46 → 15.41)
- 🚀 IQ2_S 困惑度降低36.9%同时仅增加0.2GB
- ⚡ IQ1_S 在1位量化下仍保持39.7%更好的准确率
权衡:
- 所有变体都有适度的大小增加(0.1-0.3GB)
- 推理速度保持可比性(<5%差异)
何时使用这些模型
📌 将模型适配到GPU显存中
✔ 内存受限的部署场景
✔ CPU和边缘设备,可容忍1-2位误差
✔ 超低位量化的研究