A

Aimv2 1B Patch14 224

由 apple 开发
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多项视觉任务中表现优异。
下载量 299
发布时间 : 10/29/2024
模型介绍
内容详情
替代品

模型简介

AIMv2 是一种基于多模态自回归目标预训练的大规模视觉编码器,主要用于图像特征提取和分类任务。该模型在多个基准测试中表现出色,尤其在开放词汇目标检测和指代表达理解任务中优于同类模型。

模型特点

多模态自回归预训练
采用创新的多模态自回归目标进行预训练,有效提升模型性能
卓越的分类性能
在 ImageNet-1k 等多项分类任务中达到 88% 以上的准确率
跨任务泛化能力
在开放词汇目标检测和指代表达理解任务中优于 DINOv2

模型能力

图像特征提取
图像分类
多模态理解
开放词汇目标检测
指代表达理解

使用案例

计算机视觉
通用图像分类
用于 ImageNet 等标准图像分类任务
ImageNet-1k 准确率 88.1%
细粒度分类
用于细粒度图像分类如斯坦福汽车数据集
斯坦福汽车数据集准确率 96.5%
医学图像分析
用于医学图像分类如 Camelyon17 数据集
Camelyon17 准确率 94.2%
遥感图像处理
卫星图像分类
用于 EuroSAT 等卫星图像分类任务
EuroSAT 准确率 98.8%