免费开源！aimv2-large-patch14-448视觉模型，多基准测试优异的实用之选

首页

Aimv2 Large Patch14 448

由 apple 开发

AIMv2是基于多模态自回归目标预训练的视觉模型系列，在多个基准测试中表现优异

图像分类 #多模态自回归预训练 #高精度图像分类 #开放词汇理解

下载量 2,210

发布时间 : 10/29/2024

模型简介

AIMv2采用多模态自回归目标进行预训练，在图像分类、目标检测等视觉任务中展现出强大性能

模型特点

多模态自回归预训练

采用创新的多模态自回归目标进行预训练，提升模型理解能力

卓越性能表现

在多个基准测试中超越CLIP、SigLIP和DINOv2等主流视觉模型

大规模扩展能力

预训练方法简单直接，能有效扩展训练规模

模型能力

图像特征提取

图像分类

多模态理解

开放词汇目标检测

指代表达理解

使用案例

计算机视觉

图像分类

在ImageNet等数据集上进行图像分类任务

在ImageNet-1k上达到87.9%准确率

细粒度分类

在特定领域的细粒度图像分类任务

在Stanford Cars上达到96.6%准确率

医学图像分析

处理医学影像分类任务

在Camelyon17上达到94.1%准确率

遥感图像处理

卫星图像分类

处理卫星和航拍图像分类任务

在EuroSAT上达到98.6%准确率

🚀 图像特征提取模型transformers

本项目引入了基于多模态自回归目标进行预训练的AIMv2系列视觉模型。该模型训练和扩展简单直接，在多个多模态理解基准测试中表现出色，具有强大的识别性能。

🚀 快速开始

项目信息

属性	详情
库名称	transformers
许可证	apple-amlr
评估指标	准确率
任务类型	图像特征提取
标签	视觉、图像特征提取、mlx、pytorch

模型评估结果

模型 aimv2-large-patch14-448 在多个数据集上的分类任务中表现如下：

数据集	准确率
imagenet-1k	87.9%
inaturalist-18	81.3%
cifar10	99.1%
cifar100	92.4%
food101	96.6%
dtd	88.9%
oxford-pets	96.5%
stanford-cars	96.6%
camelyon17	94.1%
patch-camelyon	89.6%
rxrx1	7.4%
eurosat	98.6%
fmow	62.8%
domainnet-infographic	72.7%

✨ 主要特性

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解任务中，性能优于DINOv2。
具有强大的识别性能，AIMv2 - 3B在使用冻结主干的情况下，在ImageNet上达到了89.5%的准确率。

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 许可证

本项目使用 apple-amlr 许可证。

📚 详细文档

论文链接：[AIMv2 Paper]
引用信息：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}

AIMv2 Overview