模型简介
Qwen2.5-VL是一个多模态视觉语言模型,擅长图像文本到文本任务,支持视觉定位、长视频理解和结构化输出生成。
模型特点
增强的视觉理解能力
不仅能识别常见物体,还能高度分析图像中的文本、图表、图标、图形和布局。
代理能力
可直接作为视觉代理,进行推理并动态调用工具,具备计算机和手机使用能力。
长视频理解与事件捕捉
能理解超过1小时的视频,并新增了通过精确定位相关视频片段捕捉事件的能力。
多种格式的视觉定位
能通过生成边界框或点准确在图像中定位对象,并能稳定输出坐标和属性的JSON格式。
结构化输出生成
对于发票、表格等数据扫描件,支持其内容的结构化输出,有利于金融、商业等领域的应用。
模型能力
图像文本理解
视觉定位
长视频分析
结构化数据提取
多模态推理
工具调用
使用案例
商业与金融
发票处理
自动提取发票中的结构化数据
提高财务处理效率
表格分析
解析扫描文档中的表格数据
简化数据录入流程
视频分析
长视频理解
分析超过1小时的视频内容
精确定位特定事件片段
视觉代理
计算机操作
通过视觉理解指导计算机操作
自动化工作流程
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文