V

Vitamin XL 384px

由 jienengchen 开发
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
下载量 104
发布时间 : 4/2/2024

模型简介

ViTamin-XL-384px 是一个视觉语言模型,主要用于图像特征提取和文本-图像匹配任务。它基于 ViTamin 架构,支持高分辨率图像输入(384px),并在多个视觉任务中表现出色。

模型特点

高分辨率支持
支持高达384px的图像输入,能够处理更精细的图像细节。
多模态特征提取
能够同时提取图像和文本特征,支持跨模态匹配任务。
高效训练
在DataComp-1B等大规模数据集上预训练,具有优秀的泛化能力。
下游任务适配
在开放词汇检测、分割和多模态理解等任务中表现优异。

模型能力

图像特征提取
文本-图像匹配
开放词汇检测
开放词汇分割
多模态理解

使用案例

计算机视觉
开放词汇目标检测
在未见过的类别上进行目标检测
OV-COCO (AP50新颖) 37.5,OV-LVIS (APr) 35.6
开放词汇图像分割
对图像进行语义分割,支持新类别识别
ADE 27.3 PQ,CityScapes 44.0 PQ
多模态应用
视觉问答
回答关于图像内容的自然语言问题
VQAv2 78.9,GQA 61.6
图像检索
基于文本查询检索相关图像
检索任务平均得分61.8
AIbase
智启未来,您的人工智能解决方案智库
简体中文