A

Aimv2 Large Patch14 336 Distilled

由 apple 开发
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
下载量 37
发布时间 : 11/18/2024
模型介绍
内容详情
替代品

模型简介

AIMv2采用创新的多模态自回归预训练方法,在图像特征提取和多模态理解任务上展现卓越性能

模型特点

多模态自回归预训练
采用创新的自回归目标进行预训练,有效提升多模态理解能力
卓越性能表现
在多模态理解基准测试中超越CLIP和SigLIP等主流模型
强大识别能力
3B版本在ImageNet上达到89.5%准确率(冻结主干网络)
多框架支持
同时支持PyTorch和JAX框架

模型能力

图像特征提取
多模态理解
开放词汇目标检测
指代表达理解

使用案例

计算机视觉
图像分类
用于高精度图像分类任务
ImageNet上达到89.5%准确率
目标检测
开放词汇目标检测应用
优于DINOv2模型
多模态应用
视觉-语言理解
用于图像与文本的联合理解任务
超越CLIP等主流模型