Qwen2-VL-2B-Instruct-GGUF开源模型 - 免费实现多模态图像文本生成任务

首页

Qwen2 VL 2B Instruct GGUF

由 second-state 开发

Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型，支持图像文本生成任务，基于 Qwen2 架构，参数规模为 2B。

图像生成文本英语开源协议:Apache-2.0 #多模态图像理解 #轻量级视觉问答 #低资源部署

下载量 125

发布时间 : 12/15/2024

模型简介

该模型是一个多模态视觉语言模型，能够处理图像和文本输入，生成相关的文本输出。适用于需要结合视觉和语言理解的应用场景。

模型特点

多模态支持

能够同时处理图像和文本输入，生成相关的文本输出。

高效量化

提供多种量化版本的模型，适用于不同硬件和性能需求。

长上下文支持

支持长达 32000 的上下文长度，适合处理复杂任务。

模型能力

图像文本生成

多模态理解

视觉问答

使用案例

视觉问答

图像描述生成

根据输入的图像生成详细的文本描述。

视觉问答

回答关于输入图像的问题。

多模态交互

图像与文本结合的任务

结合图像和文本输入，生成相关的文本输出。

🚀 Qwen2-VL-2B-Instruct-GGUF

本项目提供了Qwen2-VL-2B-Instruct模型的量化GGUF版本，可结合LlamaEdge服务运行，支持图像文本到文本的多模态处理。

🚀 快速开始

原始模型

原始模型为 Qwen/Qwen2-VL-2B-Instruct。

使用LlamaEdge运行

LlamaEdge版本：v0.16.0

提示模板

提示类型：qwen2-vision

提示字符串

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
<|vision_start|>{image_placeholder}<|vision_end|>{user_prompt}<|im_end|>
<|im_start|>assistant

上下文大小：32000

作为LlamaEdge服务运行

wasmedge --dir .:. \
  --nn-preload default:GGML:AUTO:Qwen2-VL-2B-Instruct-Q5_K_M.gguf \
  llama-api-server.wasm \
  --model-name Qwen2-VL-2B-Instruct \
  --prompt-template qwen2-vision \
  --llava-mmproj Qwen2-VL-2B-Instruct-vision-encoder.gguf \
  --ctx-size 32000

📦 量化的GGUF模型

名称	量化方法	比特数	大小	使用场景
Qwen2-VL-2B-Instruct-Q2_K.gguf	Q2_K	2	676 MB	最小，但质量损失显著，大多数情况下不推荐
Qwen2-VL-2B-Instruct-Q3_K_L.gguf	Q3_K_L	3	880 MB	较小，有较大质量损失
Qwen2-VL-2B-Instruct-Q3_K_M.gguf	Q3_K_M	3	824 MB	非常小，高质量损失
Qwen2-VL-2B-Instruct-Q3_K_S.gguf	Q3_K_S	3	761 MB	非常小，高质量损失
Qwen2-VL-2B-Instruct-Q4_0.gguf	Q4_0	4	935 MB	旧版；较小，质量损失非常高，建议使用Q3_K_M
Qwen2-VL-2B-Instruct-Q4_K_M.gguf	Q4_K_M	4	986 MB	中等，质量平衡，推荐
Qwen2-VL-2B-Instruct-Q4_K_S.gguf	Q4_K_S	4	940 MB	较小，质量损失较大
Qwen2-VL-2B-Instruct-Q5_0.gguf	Q5_0	5	1.10 GB	旧版；中等，质量平衡，建议使用Q4_K_M
Qwen2-VL-2B-Instruct-Q5_K_M.gguf	Q5_K_M	5	1.13 GB	较大，质量损失非常低，推荐
Qwen2-VL-2B-Instruct-Q5_K_S.gguf	Q5_K_S	5	1.10 GB	较大，质量损失低，推荐
Qwen2-VL-2B-Instruct-Q6_K.gguf	Q6_K	6	1.27 GB	非常大，质量损失极低
Qwen2-VL-2B-Instruct-Q8_0.gguf	Q8_0	8	1.65 GB	非常大，质量损失极低，不推荐
Qwen2-VL-2B-Instruct-f16.gguf	f16	16	3.09 GB
Qwen2-VL-2B-Instruct-vision-encoder.gguf	f16	16	2.66 GB

使用llama.cpp b4329进行量化

📄 许可证

本项目使用 apache-2.0 许可证。

属性	详情
基础模型	Qwen/Qwen2-VL-2B-Instruct
许可证	apache-2.0
模型创建者	Qwen
模型名称	Qwen2-VL-2B-Instruct
量化者	Second State Inc.
语言	en
任务类型	图像文本到文本
标签	多模态
库名称	transformers