Convnextv2 Atto 1k 224

由 facebook 开发

ConvNeXt V2是一种纯卷积模型，采用FCMAE框架预训练并在ImageNet-1K上微调，通过全局响应归一化层提升性能

图像分类

Transformers

开源协议:Apache-2.0 #全卷积掩码自编码 #图像分类轻量级 #GRN归一化层

下载量 3,920

发布时间 : 2/17/2023

模型介绍

内容详情

替代品

模型简介

该模型是用于图像分类的卷积神经网络，支持1000个ImageNet类别分类

模型特点

全卷积掩码自编码框架

创新的FCMAE预训练框架提升特征学习能力

全局响应归一化层

新型GRN层显著增强模型识别性能

纯卷积架构

完全基于卷积操作，避免使用注意力机制

模型能力

图像分类

视觉特征提取

使用案例

通用图像识别

动物识别

识别图像中的动物种类

示例中成功识别老虎

物体识别

识别日常物品如茶壶等

示例中成功识别茶壶

场景识别

识别建筑或自然场景

示例中成功识别宫殿

许可协议: apache-2.0
标签:

视觉
图像分类
数据集:
imagenet-1k
微件示例:
图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题: 老虎
图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题: 茶壶
图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题: 宫殿

ConvNeXt V2 (atto尺寸模型)

该模型采用FCMAE框架预训练，并在ImageNet-1K数据集上以224x224分辨率微调完成。由Woo等人在论文《ConvNeXt V2: 协同设计与扩展掩码自编码器的卷积网络》中提出，并首发于此代码库。

免责声明：发布ConvNeXT V2的团队未提供模型卡片，本文档由Hugging Face团队撰写。

模型描述

ConvNeXt V2是一种纯卷积模型（ConvNet），创新性地引入了全卷积掩码自编码框架（FCMAE）和全新的全局响应归一化层（GRN）。该架构显著提升了纯卷积网络在多项识别基准测试中的性能表现。

模型结构图

使用场景与限制

您可将该原始模型用于图像分类任务。访问模型中心可查找针对特定任务微调的版本。

使用方法

以下示例展示如何将COCO 2017数据集的图像分类为1000个ImageNet类别之一：

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification  
import torch  
from datasets import load_dataset  

dataset = load_dataset("huggingface/cats-image")  
image = dataset["test"]["image"][0]  

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-atto-1k-224")  
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-atto-1k-224")  

inputs = preprocessor(image, return_tensors="pt")  

with torch.no_grad():  
    logits = model(**inputs).logits  

# 模型预测1000个ImageNet类别之一  
predicted_label = logits.argmax(-1).item()  
print(model.config.id2label[predicted_label])

更多代码示例详见文档。

BibTeX引用信息

@article{DBLP:journals/corr/abs-2301-00808,  
  author    = {Sanghyun Woo and  
               Shoubhik Debnath and  
               Ronghang Hu and  
               Xinlei Chen and  
               Zhuang Liu and  
               In So Kweon and  
               Saining Xie},  
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},  
  journal   = {CoRR},  
  volume    = {abs/2301.00808},  
  year      = {2023},  
  url       = {https://doi.org/10.48550/arXiv.2301.00808},  
  doi       = {10.48550/arXiv.2301.00808},  
  eprinttype = {arXiv},  
  eprint    = {2301.00808},  
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},  
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},  
  bibsource = {dblp computer science bibliography, https://dblp.org}  
}