库名称: transformers
许可证: apple-amlr
评估指标:
- 准确率
任务标签: 图像特征提取
标签:
- 视觉
- 图像特征提取
- mlx
- pytorch
模型索引:
- 名称: aimv2-1B-patch14-224
结果:
- 任务:
类型: 分类
名称: 分类
数据集:
名称: imagenet-1k
类型: imagenet-1k
指标:
- 类型: 准确率
值: 88.1
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: inaturalist-18
类型: inaturalist-18
指标:
- 类型: 准确率
值: 79.7
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: cifar10
类型: cifar10
指标:
- 类型: 准确率
值: 99.4
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: cifar100
类型: cifar100
指标:
- 类型: 准确率
值: 94.1
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: food101
类型: food101
指标:
- 类型: 准确率
值: 96.7
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: dtd
类型: dtd
指标:
- 类型: 准确率
值: 88.4
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: oxford-pets
类型: oxford-pets
指标:
- 类型: 准确率
值: 96.8
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: stanford-cars
类型: stanford-cars
指标:
- 类型: 准确率
值: 96.5
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: camelyon17
类型: camelyon17
指标:
- 类型: 准确率
值: 94.2
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: patch-camelyon
类型: patch-camelyon
指标:
- 类型: 准确率
值: 89.0
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: rxrx1
类型: rxrx1
指标:
- 类型: 准确率
值: 6.7
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: eurosat
类型: eurosat
指标:
- 类型: 准确率
值: 98.8
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: fmow
类型: fmow
指标:
- 类型: 准确率
值: 63.2
名称: 准确率
已验证: 否
- 任务:
类型: 分类
名称: 分类
数据集:
名称: domainnet-infographic
类型: domainnet-infographic
指标:
- 类型: 准确率
值: 71.7
名称: 准确率
已验证: 否
简介
[AIMv2 论文
] [BibTeX
]
我们介绍了通过多模态自回归目标预训练的 AIMv2 系列视觉模型。AIMv2 预训练方法简单直接,能有效扩展训练规模。AIMv2 的主要亮点包括:
- 在大多数多模态理解基准测试中表现优于 OAI CLIP 和 SigLIP。
- 在开放词汇目标检测和指代表达理解任务中表现优于 DINOv2。
- 展现出强大的识别性能,AIMv2-3B 在使用冻结主干的情况下在 ImageNet 上达到 89.5% 的准确率。
使用方法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-224",
)
model = AutoModel.from_pretrained(
"apple/aimv2-1B-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-1B-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
引用
如果您觉得我们的工作有用,请考虑引用我们:
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}