A

Aimv2 Large Patch14 224 Lit

由 apple 开发
AIMv2是一个采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
下载量 222
发布时间 : 11/20/2024
模型介绍
内容详情
替代品

模型简介

AIMv2通过多模态自回归目标进行预训练,在图像分类、目标检测等任务上展现出强大的性能。

模型特点

多模态自回归预训练
采用创新的自回归目标进行预训练,实现更好的多模态理解能力
卓越的基准测试表现
在多数多模态理解基准测试中超越OpenAI CLIP和SigLIP模型
强大的识别性能
3B版本在使用冻结主干网络时,在ImageNet上达到89.5%准确率
广泛的应用能力
在开放词汇目标检测和指代表达理解任务上优于DINOv2

模型能力

零样本图像分类
多模态理解
开放词汇目标检测
指代表达理解

使用案例

计算机视觉
图像分类
对图像内容进行分类识别
ImageNet上89.5%准确率
目标检测
检测图像中的特定目标
优于DINOv2模型
多模态应用
图文匹配
理解图像与文本描述之间的关系
超越CLIP和SigLIP模型