aimv2-large-patch14-336开源视觉模型 - 适用于多类视觉任务，表现出色

首页

Aimv2 Large Patch14 336

由 apple 开发

AIMv2是基于多模态自回归目标预训练的视觉模型系列，在多项视觉任务中表现优异。

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇检测

下载量 6,177

发布时间 : 10/29/2024

模型简介

AIMv2采用多模态自回归目标预训练方法，在图像分类等视觉任务中展现出强大的性能，支持多种视觉数据集的处理。

模型特点

多模态自回归预训练

采用创新的多模态自回归目标进行预训练，提升模型性能

卓越的分类性能

在ImageNet等多项基准测试中超越同类模型

广泛的数据集支持

支持从自然图像到医学影像等多种类型的数据集

模型能力

图像特征提取

多类别图像分类

跨领域视觉理解

使用案例

计算机视觉

通用图像分类

对自然图像进行分类识别

在ImageNet-1k上达到87.6%准确率

细粒度分类

对特定领域的精细分类任务

在Stanford Cars上达到96.7%准确率

医学影像分析

处理医学影像分类任务

在Camelyon17上达到93.8%准确率

🚀 图像特征提取模型AIMv2

AIMv2是一系列经过多模态自回归目标预训练的视觉模型，训练过程简单直接，可有效进行扩展。该模型在多模态理解基准测试、开放词汇目标检测和指代表达理解等任务中表现出色，具有很强的识别性能。

🚀 快速开始

模型信息

属性	详情
库名称	transformers
许可证	apple-amlr
评估指标	准确率
任务类型	图像特征提取
标签	视觉、图像特征提取、mlx、pytorch

模型性能

数据集	准确率
ImageNet-1K	87.6%
iNaturalist-18	79.7%
CIFAR-10	99.1%
CIFAR-100	92.5%
Food-101	96.3%
DTD	88.5%
Oxford Pets	96.4%
Stanford Cars	96.7%
Camelyon17	93.8%
Patch Camelyon	89.4%
RxRx1	6.7%
EuroSAT	98.4%
FMoW	62.1%
DomainNet Infographic	71.7%

模型简介

[AIMv2论文] [BibTeX]

我们推出了AIMv2系列视觉模型，这些模型通过多模态自回归目标进行预训练。AIMv2的预训练过程简单直接，能够有效进行训练和扩展。AIMv2的一些亮点包括：

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解任务中，性能优于DINOv2。
具有强大的识别性能，AIMv2 - 3B使用冻结主干在ImageNet上达到了*89.5%的准确率。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 许可证

该项目使用apple-amlr许可证。

📚 引用

如果您觉得我们的工作有用，请考虑引用以下文献：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}