Convnextv2 Nano 22k 384

由 facebook 开发

ConvNeXt V2是一种纯卷积模型，采用FCMAE框架预训练，在ImageNet-22K数据集上微调，适用于图像分类任务。

图像分类

Transformers

开源协议:Apache-2.0 #全卷积掩码自编码 #图像分类 #高分辨率微调

下载量 269

发布时间 : 2/19/2023

模型介绍

内容详情

替代品

模型简介

ConvNeXt V2模型引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层，显著提升了纯卷积模型的性能。

模型特点

全卷积掩码自编码器框架

采用FCMAE框架进行预训练，提升了模型的表示学习能力。

全局响应归一化

引入新的GRN层，增强了模型的性能。

纯卷积架构

完全基于卷积操作，保持了ConvNet的简洁性和高效性。

模型能力

图像分类

视觉特征提取

使用案例

计算机视觉

ImageNet分类

将图像分类为ImageNet的1,000个类别之一。

在ImageNet-22K数据集上表现优异。

物体识别

识别图像中的物体类别。

license: apache-2.0 tags:

视觉
图像分类 datasets:
imagenet-22k widget:
src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg example_title: 老虎
src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg example_title: 茶壶
src: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg example_title: 宫殿

ConvNeXt V2（纳米级模型）

ConvNeXt V2模型采用FCMAE框架预训练，并在ImageNet-22K数据集上以384x384分辨率进行微调。该模型由Woo等人在论文ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders中提出，并首次发布于此代码库。

免责声明：发布ConvNeXT V2的团队未为此模型编写模型卡，因此本模型卡由Hugging Face团队撰写。

模型描述

ConvNeXt V2是一种纯卷积模型（ConvNet），引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层。ConvNeXt V2在各种识别基准测试中显著提升了纯卷积模型的性能。

模型架构图

预期用途与限制

您可以将原始模型用于图像分类任务。请访问模型中心查找针对您感兴趣任务的微调版本。

使用方法

以下示例展示如何使用该模型将COCO 2017数据集中的一张图像分类为ImageNet的1,000个类别之一：

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-nano-22k-384")
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-nano-22k-384")

inputs = preprocessor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# 模型预测ImageNet的1000个类别之一
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

更多代码示例，请参阅文档。

BibTeX条目及引用信息

@article{DBLP:journals/corr/abs-2301-00808,
  author    = {Sanghyun Woo and
               Shoubhik Debnath and
               Ronghang Hu and
               Xinlei Chen and
               Zhuang Liu and
               In So Kweon and
               Saining Xie},
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},
  journal   = {CoRR},
  volume    = {abs/2301.00808},
  year      = {2023},
  url       = {https://doi.org/10.48550/arXiv.2301.00808},
  doi       = {10.48550/arXiv.2301.00808},
  eprinttype = {arXiv},
  eprint    = {2301.00808},
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}