Q

Qwen2.5 VL 7B Instruct GPTQ Int3

由 hfl 开发
这是一个基于Qwen2.5-VL-7B-Instruct模型的非官方GPTQ-Int3量化版本,适用于图像文本到文本的多模态任务。
下载量 577
发布时间 : 3/20/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个多模态模型,能够处理图像和文本输入,生成文本输出。主要用于图像理解和文本生成任务。

模型特点

高效量化
采用GPTQ-Int3量化技术,显著减少模型磁盘占用和显存需求。
多模态支持
能够同时处理图像和文本输入,实现图像理解和文本生成。
高性能
在ChartQA和OCRBench等基准测试中表现优异。
兼容性强
兼容最新的transformers库,可与非量化版Qwen2.5-VL模型无缝切换。

模型能力

图像理解
文本生成
多模态推理
图像描述生成
视觉问答

使用案例

图像理解
图像描述生成
根据输入图像生成详细的文字描述
如示例所示,能准确描述图像内容和细节
视觉问答
图表理解
回答关于图表内容的问题
在ChartQA测试中获得78.56分
文档处理
OCR增强
从图像中提取和理解文本内容
在OCRBench测试中获得823分