A

Aimv2 Large Patch14 224 Distilled

由 apple 开发
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异。
下载量 236
发布时间 : 11/4/2024
模型介绍
内容详情
替代品

模型简介

AIMv2是一种高效的视觉模型,采用多模态自回归目标预训练,适用于图像特征提取等任务,在多项基准测试中超越同类模型。

模型特点

多模态预训练
采用自回归目标进行多模态预训练,提升模型理解能力
高性能表现
在多项基准测试中超越CLIP、SigLIP和DINOv2等模型
高效扩展
预训练方法简单直接,能高效扩展到更大规模
高准确率
AIMv2-3B在ImageNet上达到89.5%的准确率

模型能力

图像特征提取
多模态理解
开放词汇目标检测
指代表达理解

使用案例

计算机视觉
图像分类
用于高精度图像分类任务
ImageNet上达到89.5%准确率
目标检测
开放词汇目标检测
超越DINOv2模型
多模态应用
视觉语言理解
理解图像与文本的关联
在多模态理解基准中表现优异