Qwen2-VL-7B-Instruct-GGUF开源多模态模型 - 免费支持图像文本转文本任务

首页

Qwen2 VL 7B Instruct GGUF

由 XelotX 开发

基于Qwen2-VL-7B-Instruct的多模态模型量化版本，支持图像文本到文本任务，适用于多种量化级别。

图像生成文本英语开源协议:Apache-2.0 #多模态视觉问答 #高效量化推理 #低资源部署

下载量 201

发布时间 : 1/16/2025

模型简介

这是一个经过量化的多模态模型，能够处理图像和文本输入，生成文本输出。适用于需要视觉理解和文本生成结合的应用场景。

模型特点

多模态支持

能够同时处理图像和文本输入，生成相关的文本输出。

多种量化级别

提供从f16到Q2_K的多种量化版本，满足不同硬件和性能需求。

高质量推理

部分量化版本（如Q6_K_L）接近原始模型性能，推荐用于高质量推理。

ARM/AVX优化

支持ARM和AVX设备的在线重新打包，优化推理性能。

模型能力

图像描述生成

多模态对话

视觉问答

文本生成

使用案例

图像理解

图像描述

输入一张图片，生成对该图片的详细描述。

生成准确且详细的图像描述文本。

多模态对话

视觉问答

结合图像和文本问题，生成准确的回答。

能够理解图像内容并回答相关问题。

🚀 Qwen2-VL-7B-Instruct的Llamacpp imatrix量化版本

本项目基于llama.cpp对Qwen2-VL-7B-Instruct模型进行量化处理，为用户提供不同量化类型的模型文件，以满足在不同硬件条件下的使用需求。

🚀 快速开始

由于这是一个新的视觉模型，下面为你提供运行的特殊说明。

如果你已经在本地编译了llama.cpp，可以运行以下命令：

./llama-qwen2vl-cli -m /models/Qwen2-VL-7B-Instruct-Q4_0.gguf --mmproj /models/mmproj-Qwen2-VL-7B-Instruct-f32.gguf -p 'Describe this image.' --image '/models/test_image.jpg'

模型将输出答案。操作非常简单，与其他llava模型类似，只需确保使用正确的二进制文件！

✨ 主要特性

多量化类型支持：提供了多种量化类型的模型文件，如f16、Q8_0、Q6_K_L等，可根据不同的硬件资源和性能需求进行选择。
优化性能：部分量化文件采用特殊方法处理嵌入和输出权重，以提高在ARM和AVX机器上的性能。
在线重打包：支持在线重打包权重，可自动优化硬件性能。

📦 安装指南

使用huggingface-cli下载

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/Qwen2-VL-7B-Instruct-GGUF --include "Qwen2-VL-7B-Instruct-Q4_K_M.gguf" --local-dir ./

如果模型文件大于50GB，它会被分割成多个文件。若要将它们全部下载到本地文件夹，可运行：

huggingface-cli download bartowski/Qwen2-VL-7B-Instruct-GGUF --include "Qwen2-VL-7B-Instruct-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如Qwen2-VL-7B-Instruct-Q8_0），也可以将它们全部下载到当前目录（./）。

💻 使用示例

基础用法

运行模型的基本命令如下：

./llama-qwen2vl-cli -m /models/Qwen2-VL-7B-Instruct-Q4_0.gguf --mmproj /models/mmproj-Qwen2-VL-7B-Instruct-f32.gguf -p 'Describe this image.' --image '/models/test_image.jpg'

高级用法

在使用不同量化类型的模型文件时，可根据硬件资源和性能需求进行选择。例如，若要追求极致速度，可选择文件大小比GPU总VRAM小1 - 2GB的量化文件；若要追求最高质量，可将系统RAM和GPU的VRAM相加，选择比总容量小1 - 2GB的量化文件。

📚 详细文档

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

下载文件选择

文件名	量化类型	文件大小	分割情况	描述
Qwen2-VL-7B-Instruct-f16.gguf	f16	15.24GB	false	完整的F16权重。
Qwen2-VL-7B-Instruct-Q8_0.gguf	Q8_0	8.10GB	false	极高质量，通常不需要，但为可用的最大量化类型。
Qwen2-VL-7B-Instruct-Q6_K_L.gguf	Q6_K_L	6.52GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
Qwen2-VL-7B-Instruct-Q6_K.gguf	Q6_K	6.25GB	false	非常高质量，接近完美，推荐。
Qwen2-VL-7B-Instruct-Q5_K_L.gguf	Q5_K_L	5.78GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
Qwen2-VL-7B-Instruct-Q5_K_M.gguf	Q5_K_M	5.44GB	false	高质量，推荐。
Qwen2-VL-7B-Instruct-Q5_K_S.gguf	Q5_K_S	5.32GB	false	高质量，推荐。
Qwen2-VL-7B-Instruct-Q4_K_L.gguf	Q4_K_L	5.09GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
Qwen2-VL-7B-Instruct-Q4_K_M.gguf	Q4_K_M	4.68GB	false	质量良好，是大多数用例的默认大小，推荐。
Qwen2-VL-7B-Instruct-Q3_K_XL.gguf	Q3_K_XL	4.57GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低RAM环境。
Qwen2-VL-7B-Instruct-Q4_K_S.gguf	Q4_K_S	4.46GB	false	质量稍低，但节省空间，推荐。
Qwen2-VL-7B-Instruct-Q4_0.gguf	Q4_0	4.44GB	false	旧格式，支持在线重新打包以用于ARM和AVX CPU推理。
Qwen2-VL-7B-Instruct-IQ4_NL.gguf	IQ4_NL	4.44GB	false	类似于IQ4_XS，但稍大。支持在线重新打包以用于ARM CPU推理。
Qwen2-VL-7B-Instruct-IQ4_XS.gguf	IQ4_XS	4.22GB	false	质量不错，比Q4_K_S小，性能相似，推荐。
Qwen2-VL-7B-Instruct-Q3_K_L.gguf	Q3_K_L	4.09GB	false	质量较低但可用，适合低RAM环境。
Qwen2-VL-7B-Instruct-Q3_K_M.gguf	Q3_K_M	3.81GB	false	低质量。
Qwen2-VL-7B-Instruct-IQ3_M.gguf	IQ3_M	3.57GB	false	中低质量，新方法，性能与Q3_K_M相当。
Qwen2-VL-7B-Instruct-Q2_K_L.gguf	Q2_K_L	3.55GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
Qwen2-VL-7B-Instruct-Q3_K_S.gguf	Q3_K_S	3.49GB	false	低质量，不推荐。
Qwen2-VL-7B-Instruct-IQ3_XS.gguf	IQ3_XS	3.35GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
Qwen2-VL-7B-Instruct-Q2_K.gguf	Q2_K	3.02GB	false	质量非常低，但出人意料地可用。
Qwen2-VL-7B-Instruct-IQ2_M.gguf	IQ2_M	2.78GB	false	质量相对较低，使用了最先进的技术，出人意料地可用。