A

Aimv2 Large Patch14 Native Image Classification

由 amaye15 开发
AIMv2-Large-Patch14-Native 是一个适配后的图像分类模型,基于原始AIMv2模型修改,兼容Hugging Face Transformers的AutoModelForImageClassification类。
下载量 15
发布时间 : 11/25/2024
模型介绍
内容详情
替代品

模型简介

本模型是原始AIMv2模型的适配版本,经过修改可与Hugging Face Transformers的AutoModelForImageClassification类兼容,用于图像分类任务。

模型特点

多模态自回归预训练
AIMv2模型通过多模态自回归目标进行预训练,在各种基准测试中展现出卓越性能。
兼容Hugging Face Transformers
经过适配后,该模型可直接与AutoModelForImageClassification配合使用,便于集成到现有工作流中。
高性能
AIMv2系列在多数多模态理解基准测试中超越OAI CLIP和SigLIP,在开放词汇目标检测和指代表达理解任务上优于DINOv2。

模型能力

图像分类
视觉理解

使用案例

计算机视觉
通用图像分类
对输入图像进行分类,识别其中的主要对象或场景。