ImageNet-21k预训练
Vit Large Patch16 224.orig In21k
Apache-2.0
基于Vision Transformer(ViT)的图像分类模型,由Google Research在JAX框架下使用ImageNet-21k预训练,后移植到PyTorch。
图像分类
Transformers
V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
基于Vision Transformer的图像分类模型,在ImageNet-21k上预训练,适用于特征提取和微调
图像分类
Transformers
V
timm
23.07k
1
Dog Breeds Multiclass Image Classification With Vit
MIT
使用谷歌视觉Transformer架构微调的犬种分类模型,支持120种犬类的图像识别
图像分类
Transformers
D
wesleyacheng
584
4
Vit Base R50 S16 224.orig In21k
Apache-2.0
结合ResNet与Vision Transformer的混合图像分类模型,基于ImageNet-21k预训练,适用于特征提取和微调场景。
图像分类
Transformers
V
timm
876
0
Vit Large Patch32 224.orig In21k
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于特征提取和微调场景。
图像分类
Transformers
V
timm
771
0
Vit Huge Patch14 224.orig In21k
Apache-2.0
基于Vision Transformer (ViT)架构的大规模图像特征提取模型,在ImageNet-21k数据集上预训练
图像分类
Transformers
V
timm
3,214
2
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers
S
microsoft
3,816
10
Vit Large Patch32 224 In21k
Apache-2.0
该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
V
google
4,943
1
Vit Base Patch32 224 In21k
Apache-2.0
该视觉变换器(ViT)模型在ImageNet-21k数据集上以224x224分辨率进行了预训练,适用于图像分类任务。
图像分类
V
google
35.10k
19
Beit Base Patch16 224 Pt22k
Apache-2.0
BEiT是一种基于视觉Transformer的模型,通过自监督学习在ImageNet-21k数据集上预训练,用于图像分类任务。
图像分类
B
microsoft
2,647
3
Swin Base Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一种基于分层窗口计算的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers
S
microsoft
13.30k
15
Vit Large Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,适用于图像特征提取和下游任务微调。
图像分类
V
google
92.63k
26
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于分层窗口的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers
S
microsoft
1,063
7
Swin Large Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一种基于移动窗口的分层视觉Transformer,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers
S
microsoft
387
2
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
图像分类
Transformers
S
microsoft
2,431
1
Beit Large Patch16 224 Pt22k
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)的自监督学习模型,通过ImageNet-21k数据集预训练,用于图像分类任务。
图像分类
B
microsoft
237
2