Q

Qwen2.5 VL 3B Instruct Quantized.w4a16

由 RedHatAI 开发
Qwen2.5-VL-3B-Instruct的量化版本,权重量化为INT4,激活量化为FP16,适用于视觉-文本任务的高效推理。
下载量 167
发布时间 : 2/7/2025
模型介绍
内容详情
替代品

模型简介

该模型是基于Qwen/Qwen2.5-VL-3B-Instruct的量化版本,专为视觉-文本任务优化,支持高效的文本生成和视觉理解。

模型特点

高效量化
权重量化为INT4,激活量化为FP16,显著提升推理效率。
多模态支持
支持视觉和文本输入,能够理解和生成与图像相关的文本内容。
高性能推理
通过vLLM后端实现高效部署,支持单流和多流异步推理。

模型能力

视觉-文本理解
文本生成
图像内容分析
多模态任务处理

使用案例

视觉问答
图像内容描述
根据输入的图像生成详细的文本描述。
在VQAv2数据集上达到73.58的准确率。
文档视觉问答
回答与文档图像内容相关的问题。
在DocVQA数据集上达到91.58的ANLS分数。
视觉推理
数学视觉问题解答
解决包含数学公式和图像的复杂问题。
在Mathvista数据集上达到45.75的准确率。