A

Aimv2 Huge Patch14 224

由 apple 开发
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多项基准测试中表现优异。
下载量 54
发布时间 : 10/29/2024
模型介绍
内容详情
替代品

模型简介

AIMv2 是一种先进的视觉模型,采用多模态自回归预训练方法,在图像分类和特征提取任务中表现出色。

模型特点

多模态自回归预训练
采用创新的多模态自回归目标进行预训练,提升模型性能
卓越的基准测试表现
在多个视觉基准测试中优于CLIP、SigLIP和DINOv2等模型
大规模扩展能力
预训练方法简单直接,能有效扩展训练规模

模型能力

图像分类
图像特征提取
多模态理解
开放词汇目标检测
指代表达理解

使用案例

计算机视觉
图像分类
在ImageNet等数据集上进行高精度图像分类
在ImageNet-1k上达到87.5%准确率
细粒度分类
对特定领域的细粒度图像分类
在stanford-cars上达到96.4%准确率
医学图像分析
医学图像分类和分析
在camelyon17上达到93.3%准确率
多模态应用
开放词汇目标检测
检测图像中未在训练集中明确标注的物体
性能优于DINOv2
指代表达理解
理解自然语言指代表达并定位图像中的对应区域
性能优于DINOv2