aimv2-large-patch14-native开源视觉模型 - 多模态理解表现优异，功能强大

首页

Aimv2 Large Patch14 Native

由 apple 开发

AIMv2是采用多模态自回归目标预训练的视觉模型系列，在多项多模态理解基准测试中表现优异。

图像分类 #多模态自回归预训练 #高精度图像特征提取 #开放词汇理解

下载量 788

发布时间 : 11/21/2024

模型简介

AIMv2通过多模态自回归目标进行预训练，在图像特征提取和多模态理解任务上展现出卓越性能。

模型特点

卓越的多模态理解能力

在多数多模态理解基准测试中超越OpenAI CLIP和SigLIP模型

强大的识别性能

AIMv2-3B版本在使用冻结主干网络时达到ImageNet 89.5%准确率

开放词汇理解优势

在开放词汇目标检测和指代表达理解任务上优于DINOv2

高效预训练方法

采用简单直接的多模态自回归目标预训练，能有效扩展训练规模

模型能力

图像特征提取

多模态理解

开放词汇目标检测

指代表达理解

大规模视觉表示学习

使用案例

计算机视觉

图像分类

使用预训练特征进行图像分类任务

ImageNet上达到89.5%准确率

目标检测

开放词汇环境下的目标检测

优于DINOv2模型

多模态应用

视觉-语言理解

图像与文本的联合表示学习

超越CLIP和SigLIP模型

🚀 AIMv2视觉模型库

AIMv2是一系列基于多模态自回归目标进行预训练的视觉模型，训练过程简单直接，可有效进行扩展。该模型在多模态理解基准测试、开放词汇目标检测等多个任务中表现出色。

🚀 快速开始

我们引入了通过多模态自回归目标进行预训练的AIMv2系列视觉模型。AIMv2的预训练过程简单直接，能够有效进行训练和扩展。AIMv2的一些亮点包括：

在大多数多模态理解基准测试中，性能优于OAI CLIP和SigLIP。
在开放词汇目标检测和指代表达理解任务中，性能优于DINOv2。
展现出强大的识别性能，AIMv2 - 3B在使用冻结主干网络的情况下，在ImageNet上达到了*89.5%*的准确率。

AIMv2概述

💻 使用示例

基础用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-native",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-native",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-native",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-native",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 许可证

本项目采用apple-amlr许可证。

📚 详细文档

[AIMv2论文] [BibTeX]

📚 引用

如果您觉得我们的工作有用，请考虑按以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}