M

Monkey

由 echo840 开发
猴子模型是一种高效的大型多模态模型,通过提升图像分辨率和改进文本标签方法,在多个视觉任务中表现优异。
下载量 308
发布时间 : 11/22/2023
模型介绍
内容详情
替代品

模型简介

猴子模型专注于提升图像分辨率至896×1344像素,并采用多层级描述生成方法,以增强对场景和对象上下文关联的理解能力。

模型特点

高分辨率支持
支持1344×896分辨率输入,超越常规448×448分辨率,显著提升对微小物体、密集对象及文本的识别理解能力
多层级描述生成
创新性地设计多层级描述生成方法,自动提供丰富信息以引导模型学习场景与对象的上下文关联
上下文关联推理
在问答时展现出卓越的目标关系推理能力,输出更具洞察力的综合结果

模型能力

高分辨率图像理解
详细图像描述生成
视觉问答
文档图像处理
上下文关联推理

使用案例

图像理解
详细图像描述
为图像生成包含细节的文本描述
描述准确度可超越GPT4V
文档处理
密集文本理解
处理包含密集文本的文档图像
展现出卓越性能
视觉问答
通用视觉问答
回答关于图像内容的各种问题
在16个多样化数据集测试中表现优异