Q

Qwen2.5 VL 7B Instruct GGUF

由 unsloth 开发
Qwen2.5-VL是Qwen家族最新推出的视觉语言模型,具备强大的视觉理解和多模态处理能力,支持图像、视频分析和结构化输出。
下载量 8,427
发布时间 : 5/11/2025

模型简介

Qwen2.5-VL是一款多模态视觉语言模型,专注于提升视觉理解、智能体功能和结构化输出能力,适用于金融、商业等多种场景。

模型特点

增强视觉理解
精准识别物体、文本、图表、图标和版式布局,支持复杂视觉内容分析
智能体功能
可直接作为视觉智能体运行,动态调用工具,支持计算机和手机操作场景
长视频理解
可解析超过1小时的视频内容,具备精准定位相关片段的事件捕捉能力
结构化输出
针对发票、表格等数据支持结构化输出,适用于金融、商业等专业场景

模型能力

图像分析
视频理解
文本识别
图表解析
视觉定位
结构化数据提取
多模态推理

使用案例

商业分析
发票处理
自动提取发票中的结构化数据
准确率高达95.7%(DocVQA测试集)
教育
图表理解
解析教学材料中的图表信息
ChartQA测试集准确率87.3%
智能助手
视觉智能体
作为智能体执行屏幕操作任务
ScreenSpot测试集得分84.7
AIbase
智启未来,您的人工智能解决方案智库
简体中文