A

Aimv2 1B Patch14 448

由 apple 开发
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
下载量 71
发布时间 : 10/29/2024
模型介绍
内容详情
替代品

模型简介

AIMv2 是一个高效的视觉模型,通过多模态自回归目标进行预训练,在图像分类、目标检测等任务中表现出色。

模型特点

多模态自回归预训练
采用多模态自回归目标进行预训练,提高了模型的泛化能力和性能。
高性能
在多个视觉理解基准测试中表现优于 CLIP 和 SigLIP 等模型。
高效扩展
预训练方法简单直接,能够高效扩展到更大规模的模型。

模型能力

图像特征提取
图像分类
多模态理解

使用案例

计算机视觉
图像分类
在 ImageNet-1k 等数据集上进行图像分类任务。
准确率 89.0%
开放词汇目标检测
在开放词汇目标检测任务中表现优于 DINOv2。
指代表达理解
在指代表达理解任务中表现优于 DINOv2。