224x224分辨率
Pvt Medium 224
Apache-2.0
PVT是一种基于Transformer的视觉模型,采用金字塔结构处理图像,在ImageNet-1K上预训练,适用于图像分类任务。
图像分类
Transformers
P
Xrenya
13
0
Microsoft Resnet 152 Plant Seedling Classification
Apache-2.0
基于ResNet-152微调的植物幼苗分类模型,在测试集上准确率达77.67%
图像分类
Transformers
M
uisikdag
30
0
Convnextv2 Tiny 1k 224
Apache-2.0
ConvNeXt V2是一种纯卷积模型,引入全卷积掩码自编码框架和全局响应归一化层,显著提升卷积网络在识别任务上的性能。
图像分类
Transformers
C
facebook
43.54k
5
Convnext Tiny Finetuned Cifar10
Apache-2.0
该模型是基于ConvNeXT架构的微型版本,在cifar10数据集上进行微调,适用于图像分类任务。
图像分类
Transformers
C
ahsanjavid
2,014
1
Levit 128S
Apache-2.0
LeViT-128S是基于ImageNet-1k数据集预训练的视觉Transformer模型,结合了卷积网络的优势以实现更快推理。
图像分类
Transformers
L
facebook
3,198
4
Levit 384
Apache-2.0
LeViT-384是基于ImageNet-1k数据集预训练的视觉Transformer模型,结合了卷积网络的优势以实现更快的推理速度。
图像分类
Transformers
L
facebook
37
0
Resnet 50
Apache-2.0
ResNet-50是基于ImageNet-1k预训练的残差网络模型,采用v1.5架构改进,适用于图像分类任务。
图像分类
R
microsoft
273.80k
407
Resnet 152
Apache-2.0
基于ImageNet-1k数据集预训练的深度残差网络模型,用于图像分类任务
图像分类
Transformers
R
microsoft
18.22k
12
Vit Large Patch32 224 In21k
Apache-2.0
该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
V
google
4,943
1
Vit Base Patch32 224 In21k
Apache-2.0
该视觉变换器(ViT)模型在ImageNet-21k数据集上以224x224分辨率进行了预训练,适用于图像分类任务。
图像分类
V
google
35.10k
19
Convnext Large 224
Apache-2.0
ConvNeXT是一个纯卷积模型,设计灵感来自视觉Transformer,在ImageNet-1k数据集上以224x224分辨率训练而成。
图像分类
Transformers
C
facebook
740
27
Vit Large Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,适用于图像特征提取和下游任务微调。
图像分类
V
google
92.63k
26
Vit Huge Patch14 224 In21k
Apache-2.0
基于ImageNet-21k预训练的视觉Transformer模型,采用超大尺寸架构,适用于图像分类等视觉任务。
图像分类
V
google
47.78k
20
Convnext Xlarge 224 22k
Apache-2.0
ConvNeXT是一个纯卷积模型,其设计灵感来自视觉Transformer,宣称性能优于视觉Transformer。
图像分类
Transformers
C
facebook
2,135
1
Deit Base Distilled Patch16 224
Apache-2.0
蒸馏版高效数据图像Transformer(DeiT)模型在ImageNet-1k上以224x224分辨率进行了预训练和微调,通过蒸馏学习从教师模型中提取知识。
图像分类
Transformers
D
facebook
35.53k
26
Beit Large Patch16 224 Pt22k Ft22k
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)的图像分类模型,通过自监督方式在ImageNet-22k上预训练并在相同数据集上微调。
图像分类
B
microsoft
1,880
5
Convnext Base 224 22k
Apache-2.0
ConvNeXT是一个纯卷积模型,其设计灵感来自视觉Transformer,宣称性能优于视觉Transformer。
图像分类
Transformers
C
facebook
1,797
6
Beit Large Patch16 224 Pt22k
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)的自监督学习模型,通过ImageNet-21k数据集预训练,用于图像分类任务。
图像分类
B
microsoft
237
2