license: apache-2.0
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers
Qwen2.5-VL-7B-Instruct GGUF 模型
这些文件已使用imatrix文件和最新的llama.cpp构建。您必须使用llama.cpp的分支才能让模型支持视觉功能。
如何使用Qwen 2.5 VL Instruct与llama.cpp(截至2025年5月10日最新版)
- 下载Qwen 2.5 VL gguf文件:
https://huggingface.co/Mungert/Qwen2.5-VL-7B-Instruct-GGUF/tree/main
选择文件名中不包含mmproj的gguf文件
示例gguf文件:https://huggingface.co/Mungert/Mungert/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-q8_0.gguf
将此文件复制到您选择的文件夹中。
- 下载Qwen 2.5 VL mmproj文件
https://huggingface.co/Mungert/Qwen2.5-VL-7B-Instruct-GGUF/tree/main
选择文件名中包含mmproj的文件
示例mmproj文件:https://huggingface.co/Mungert/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/Qwen2.5-VL-7B-Instruct-mmproj-f16.gguf
将此文件复制到您选择的文件夹中。
- 将图像复制到与gguf文件相同的文件夹中,或适当修改路径。
在下面的示例中,gguf文件、图像和llama-mtmd-cli位于同一文件夹中。
示例图像:image https://huggingface.co/Mungert/Qwen2.5-VL-7B-Instruct-GGUF/resolve/main/car-1.jpg
将此文件复制到您选择的文件夹中。
- 运行CLI工具:
从您选择的文件夹中运行:
llama-mtmd-cli -m Qwen2.5-VL-7B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-7B-Instruct-mmproj-f16.gguf -p "描述这张图片。" --image ./car-1.jpg
采用IQ-DynamicGate技术的超低比特量化(1-2比特)
我们最新的量化方法为超低比特模型(1-2比特)引入了精度自适应量化,并在Llama-3-8B上通过基准测试验证了改进效果。该方法采用分层策略,在保持极高内存效率的同时保留准确性。
基准测试背景
所有测试均在Llama-3-8B-Instruct上进行:
- 标准困惑度评估流程
- 2048个token的上下文窗口
- 所有量化方法使用相同的提示集
方法
- 动态精度分配:
- 前25%和后25%的层 → IQ4_XS(选定层)
- 中间50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入层和输出层使用Q5_K
- 相比标准1-2比特量化,减少38%的错误传播
量化性能对比(Llama-3-8B)
量化方法 |
标准PPL |
DynamicGate PPL |
Δ PPL |
标准大小 |
DG大小 |
Δ大小 |
标准速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
说明:
- PPL = 困惑度(越低越好)
- Δ PPL = 从标准到DynamicGate的百分比变化
- 速度 = 推理时间(CPU avx2,2048 token上下文)
- 大小差异反映了混合量化的开销
关键改进:
- 🔥 IQ1_M 困惑度大幅降低43.9%(27.46 → 15.41)
- 🚀 IQ2_S 困惑度降低36.9%,仅增加0.2GB
- ⚡ IQ1_S 在1比特量化下仍保持39.7%的更高准确率
权衡:
- 所有变体大小略有增加(0.1-0.3GB)
- 推理速度保持相近(差异<5%)
适用场景
📌 将模型适配到GPU显存中
✔ 内存受限的部署
✔ CPU和边缘设备,可容忍1-2比特误差
✔ 研究超低比特量化