V

Vitamin XL 256px

由 jienengchen 开发
ViTamin-XL-256px是基于ViTamin架构的视觉语言模型,专为高效视觉特征提取和多模态任务设计,支持高分辨率图像处理。
下载量 655
发布时间 : 4/8/2024
模型介绍
内容详情
替代品

模型简介

ViTamin-XL-256px是一个可扩展的视觉模型,结合了视觉和语言处理能力,适用于图像分类、开放词汇检测、分割及多模态任务。

模型特点

高分辨率支持
支持256px至384px的图像分辨率,适应不同场景需求。
多任务性能优异
在ImageNet分类、开放词汇检测、分割及多模态任务中表现卓越。
可扩展架构
ViTamin设计允许灵活调整模型规模和计算量,平衡性能与效率。

模型能力

图像特征提取
文本特征提取
多模态对齐
开放词汇检测
语义分割
视觉问答

使用案例

计算机视觉
图像分类
对图像进行高效分类,支持开放词汇标签。
ImageNet准确率82.1%(256px分辨率)
开放词汇检测
检测图像中未在训练集中出现的新类别对象。
OV-COCO新类AP50达37.5%
多模态应用
视觉问答
结合图像和文本输入回答复杂问题。
VQAv2准确率78.4%
图文检索
实现跨模态的图文匹配与检索。
检索性能指标61.2-63.8