Q

Qwen2.5 VL 3B Instruct 4bit

由 jarvisvasu 开发
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、智能体功能和长视频处理能力。
下载量 174
发布时间 : 1/29/2025

模型简介

Qwen2.5-VL是一个多模态视觉语言模型,专注于提升视觉理解、智能体功能和长视频处理能力,适用于多种视觉语言任务。

模型特点

增强的视觉理解能力
能精准识别常见物体,擅长分析图像中的文本、图表、图标、图形和版式布局。
智能体功能
可直接作为视觉智能体进行推理和动态工具调用,支持计算机和手机操作场景。
长视频理解与事件捕捉
可解析超过1小时的视频内容,新增精准定位相关视频片段的事件捕捉能力。
多格式视觉定位
通过生成边界框或坐标点精确定位图像中的物体,并能稳定输出JSON格式的坐标和属性数据。
结构化输出生成
针对发票扫描件、表格等数据,支持内容结构化输出,适用于金融、商业等领域。

模型能力

图像理解
文本分析
视频理解
视觉定位
结构化数据生成
智能体推理

使用案例

文档处理
发票扫描件处理
自动提取发票中的关键信息并生成结构化数据
高效处理金融和商业文档
视频分析
长视频内容理解
解析超过1小时的视频内容,定位关键事件
提升视频内容分析效率
智能体应用
计算机操作辅助
作为视觉智能体辅助用户进行计算机操作
提升人机交互体验
AIbase
智启未来,您的人工智能解决方案智库
简体中文