U

Uground V1 72B Preview

由 osunlp 开发
Qwen2-VL是Qwen-VL模型系列的最新迭代,具备全分辨率图像理解、超长视频解析和多语言图文识别能力。
下载量 21
发布时间 : 1/7/2025
模型介绍
内容详情
替代品

模型简介

720亿参数的多模态视觉语言模型,支持图像理解、视频分析、多语言文本识别和智能体操作等功能。

模型特点

全分辨率图像理解
通过动态视觉token映射实现类人视觉处理体验,在MathVista、DocVQA等基准测试中达到最先进水平
超长视频理解
可解析20分钟以上视频内容,支持高质量视频问答、对话及创作
智能体操作系统
结合复杂推理与决策能力,可集成手机、机器人等设备实现视觉环境驱动的自动化操作
多语言图文理解
支持图像内多语种文本识别,涵盖主要欧洲语言、日语、韩语、阿拉伯语、越南语等

模型能力

图像理解
视频分析
多语言文本识别
智能体操作
复杂推理
决策支持

使用案例

文档处理
文档问答
解析文档图像并回答相关问题
在DocVQA测试集上达到96.5%准确率
教育
数学问题解答
解析数学图表并解答问题
在MathVista测试集上达到70.5%准确率
智能设备
安卓设备操作
通过视觉理解控制安卓设备
在AITZ基准测试中类型匹配准确率89.6%