S

Space Model

由 Alhdrawi 开发
Qwen2.5-VL-32B-Instruct是Qwen家族的最新视觉语言模型,具备强大的视觉理解和智能代理能力,支持多模态任务处理。
下载量 58
发布时间 : 3/31/2025
模型介绍
内容详情
替代品

模型简介

Qwen2.5-VL-32B-Instruct是一个320亿参数的视觉语言模型,专注于提升视觉理解、数学推理和问题解决能力,支持图像、视频和文本的多模态交互。

模型特点

增强的视觉理解能力
不仅能识别常见物体,还擅长分析图像中的文本、图表、图标、图形和布局。
智能代理能力
可直接作为视觉代理,动态调用工具,支持计算机和手机操作。
长视频理解与事件捕捉
能解析超过1小时的视频,新增精准定位相关片段的能力。
多格式视觉定位
通过生成边界框或点坐标精确定位图像对象,并输出稳定的JSON格式坐标和属性。
结构化输出
支持发票、表格等扫描数据的结构化输出,适用于金融、商业等场景。

模型能力

图像分析
视频理解
文本生成
数学推理
逻辑推理
知识问答
视觉定位
智能代理

使用案例

金融与商业
发票处理
自动识别和结构化输出发票信息
准确率高达96.4%(DocVQA数据集)
教育
数学问题解答
解析和解答包含图表和公式的数学问题
MathVista数据集得分74.7
视频分析
长视频内容理解
解析超过1小时的视频内容并定位关键事件
LVBench得分49.00