Convnextv2 Pico 1k 224

由 facebook 开发

ConvNeXt V2是基于FCMAE框架预训练的纯卷积模型，在ImageNet-1K数据集上微调，适用于图像分类任务。

图像分类

Transformers

开源协议:Apache-2.0 #全卷积掩码自编码 #图像分类 #轻量级模型

下载量 94

发布时间 : 2/17/2023

模型介绍

内容详情

替代品

模型简介

ConvNeXt V2是一种纯卷积模型，引入了全卷积掩码自编码器框架（FCMAE）和全局响应归一化（GRN）层，显著提升了纯卷积网络的性能。

模型特点

全卷积掩码自编码器框架

采用FCMAE框架进行预训练，提升了模型的表示学习能力。

全局响应归一化层

引入新的GRN层，增强了模型的泛化能力和性能。

纯卷积架构

完全基于卷积操作，避免了Transformer的计算开销，保持了高效性。

模型能力

图像分类

视觉特征提取

使用案例

图像识别

动物识别

识别图像中的动物种类，如老虎等。

可准确分类1000种ImageNet类别。

物体识别

识别日常物体，如茶壶等。

在ImageNet-1K数据集上表现优异。

许可协议：apache-2.0
标签：

视觉
图像分类
数据集：
imagenet-1k
示例展示：
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题：老虎
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题：茶壶
图片链接：https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题：宫殿

ConvNeXt V2（微型模型）

ConvNeXt V2模型基于FCMAE框架预训练，并在ImageNet-1K数据集上以224x224分辨率微调。该模型由Woo等人在论文《ConvNeXt V2: 联合设计与扩展卷积网络的掩码自编码器》中提出，并首次发布于此代码库。

免责声明：发布ConvNeXt V2的团队未为此模型编写说明卡，本说明卡由Hugging Face团队撰写。

模型描述

ConvNeXt V2是一种纯卷积模型（ConvNet），引入了全卷积掩码自编码器框架（FCMAE）和新的全局响应归一化（GRN）层。ConvNeXt V2显著提升了纯卷积网络在多种识别任务上的性能。

模型架构图

用途与限制

您可将该原始模型用于图像分类任务。访问模型中心寻找针对特定任务微调的版本。

使用方法

以下示例展示如何将COCO 2017数据集的图像分类为1000个ImageNet类别之一：

from transformers import AutoImageProcessor, ConvNextV2ForImageClassification  
import torch  
from datasets import load_dataset  

dataset = load_dataset("huggingface/cats-image")  
image = dataset["test"]["image"][0]  

preprocessor = AutoImageProcessor.from_pretrained("facebook/convnextv2-pico-1k-224")  
model = ConvNextV2ForImageClassification.from_pretrained("facebook/convnextv2-pico-1k-224")  

inputs = preprocessor(image, return_tensors="pt")  

with torch.no_grad():  
    logits = model(**inputs).logits  

# 模型预测1000个ImageNet类别之一  
predicted_label = logits.argmax(-1).item()  
print(model.config.id2label[predicted_label])

更多代码示例详见文档。

BibTeX引用信息

@article{DBLP:journals/corr/abs-2301-00808,  
  author    = {Sanghyun Woo and  
               Shoubhik Debnath and  
               Ronghang Hu and  
               Xinlei Chen and  
               Zhuang Liu and  
               In So Kweon and  
               Saining Xie},  
  title     = {ConvNeXt {V2:} Co-designing and Scaling ConvNets with Masked Autoencoders},  
  journal   = {CoRR},  
  volume    = {abs/2301.00808},  
  year      = {2023},  
  url       = {https://doi.org/10.48550/arXiv.2301.00808},  
  doi       = {10.48550/arXiv.2301.00808},  
  eprinttype = {arXiv},  
  eprint    = {2301.00808},  
  timestamp = {Tue, 10 Jan 2023 15:10:12 +0100},  
  biburl    = {https://dblp.org/rec/journals/corr/abs-2301-00808.bib},  
  bibsource = {dblp computer science bibliography, https://dblp.org}  
}