Convnextv2 Huge 22k 512

由 facebook 开发

ConvNeXt V2是一种纯卷积模型，采用FCMAE框架预训练，并在ImageNet-22K数据集上微调，显著提升了纯卷积模型在多种识别基准上的性能。

图像分类

Transformers

开源协议:Apache-2.0 #全卷积掩码自编码 #高分辨率图像分类 #全局响应归一化

下载量 211

发布时间 : 2/18/2023

模型介绍

内容详情

替代品

模型简介

ConvNeXt V2模型引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层，适用于图像分类任务。

模型特点

全卷积掩码自编码器框架（FCMAE）

采用FCMAE框架进行预训练，提升了模型的表示学习能力。

全局响应归一化（GRN）层

引入新的GRN层，增强了模型的归一化能力。

高分辨率微调

在ImageNet-22K数据集上以512x512分辨率进行微调，提升了模型的识别精度。

模型能力

图像分类

视觉识别

使用案例

图像识别

动物识别

识别图像中的动物类别，如老虎。

物体识别

识别图像中的日常物体，如茶壶。

场景识别

识别图像中的场景类别，如宫殿。

许可协议：apache-2.0
标签：

视觉
图像分类
数据集：
imagenet-22k
微件示例：
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题：老虎
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题：茶壶
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题：宫殿

ConvNeXt V2（超大型模型）

ConvNeXt V2模型采用FCMAE框架预训练，并在ImageNet-22K数据集上以512x512分辨率进行微调。该模型由Woo等人在论文ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders中提出，并首次发布于此代码库。

免责声明：发布ConvNeXT V2的团队未为此模型编写模型卡，因此本模型卡由Hugging Face团队撰写。

模型描述

ConvNeXt V2是一种纯卷积模型（ConvNet），引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层。ConvNeXt V2显著提升了纯卷积模型在多种识别基准上的性能。

模型架构图

预期用途与限制

您可以将该原始模型用于图像分类任务。访问模型中心查找您感兴趣任务的微调版本。

使用方法

以下示例展示如何使用该模型将COCO 2017数据集中的一张图像分类为1000个ImageNet类别之一：

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification  
import torch  
from datasets import load_dataset  

dataset = load_dataset("huggingface/cats-image")  
image = dataset["test"]["image"][0]  

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-huge-22k-512")  
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-huge-22k-512")  

inputs = preprocessor(image, return_tensors="pt")  

with torch.no_grad():  
    logits = model(**inputs).logits  

# 模型预测1000个ImageNet类别之一  
predicted_label = logits.argmax(-1).item()  
print(model.config.id2label[predicted_label])

更多代码示例请参阅文档。

BibTeX引用信息

@article{DBLP:journals/corr/abs-2301-00808,  
  author    = {Sanghyun Woo and  
               Shoubhik Debnath and  
               Ronghang Hu and  
               Xinlei Chen and  
               Zhuang Liu and  
               In So Kweon and  
               Saining Xie},  
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},  
  journal   = {CoRR},  
  volume    = {abs/2301.00808},  
  year      = {2023},  
  url       = {https://doi.org/10.48550/arXiv.2301.00808},  
  doi       = {10.48550/arXiv.2301.00808},  
  eprinttype = {arXiv},  
  eprint    = {2301.00808},  
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},  
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},  
  bibsource = {dblp computer science bibliography, https://dblp.org}  
}