高分辨率图像分类
Mambavision L3 512 21K
其他
MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重新设计曼巴公式增强视觉特征建模能力,并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。
图像分类
Transformers
M
nvidia
7,548
49
Mambavision L2 512 21K
其他
首个结合曼巴(Mamba)与Transformer优势的混合计算机视觉模型,通过重构曼巴公式增强视觉特征建模能力
图像分类
Transformers
M
nvidia
2,678
3
Convnextv2 Tiny 22k 384
Apache-2.0
ConvNeXt V2是一种纯卷积模型,采用FCMAE框架预训练,并在ImageNet-22K数据集上微调,显著提升了纯卷积网络的识别性能。
图像分类
Transformers
C
facebook
2,309
3
Convnextv2 Huge 22k 512
Apache-2.0
ConvNeXt V2是一种纯卷积模型,采用FCMAE框架预训练,并在ImageNet-22K数据集上微调,显著提升了纯卷积模型在多种识别基准上的性能。
图像分类
Transformers
C
facebook
211
3
Efficientnet B7
Apache-2.0
EfficientNet是一种高效的卷积神经网络,通过统一缩放深度、宽度和分辨率实现高性能图像分类
图像分类
Transformers
E
google
6,522
17
Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft
Apache-2.0
Swin Transformer v2是基于ImageNet-21k预训练并在384x384分辨率下对ImageNet-1k进行微调的视觉Transformer模型,具有分层特征图和局部窗口自注意力机制。
图像分类
Transformers
S
microsoft
3,048
4
Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers
S
microsoft
812
4
Swinv2 Base Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类。
图像分类
Transformers
S
microsoft
459
1
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers
S
microsoft
3,816
10
Swinv2 Base Patch4 Window16 256
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers
S
microsoft
1,853
3
Swinv2 Small Patch4 Window8 256
Apache-2.0
Swin Transformer v2 是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像处理。
图像分类
Transformers
S
microsoft
1,836
0
Swinv2 Tiny Patch4 Window8 256
Apache-2.0
Swin Transformer v2是基于ImageNet-1k预训练的视觉Transformer模型,采用分层特征图和局部窗口自注意力机制,具有线性计算复杂度。
图像分类
Transformers
S
microsoft
25.04k
10
Cvt W24 384 22k
Apache-2.0
CvT-w24是基于ImageNet-22k预训练并在384x384分辨率下微调的视觉变换器模型,通过引入卷积改进传统视觉变换器。
图像分类
Transformers
C
microsoft
66
0
Cvt 21 384
Apache-2.0
CvT-21是基于卷积视觉变换器架构的图像分类模型,在ImageNet-1k数据集上以384x384分辨率预训练。
图像分类
Transformers
C
microsoft
29
1
Cvt 21 384 22k
Apache-2.0
CvT-21是一种结合卷积和Transformer架构的视觉模型,在ImageNet-22k上预训练并在ImageNet-1k上微调
图像分类
Transformers
C
microsoft
134
3
Cvt 13 384 22k
Apache-2.0
CvT-13是一种结合卷积和Transformer的视觉模型,在ImageNet-22k上预训练并在ImageNet-1k上微调,适用于图像分类任务。
图像分类
Transformers
C
microsoft
508
0
Cvt 13 384
Apache-2.0
CvT-13是基于ImageNet-1k数据集预训练的视觉变换器模型,通过引入卷积操作改进了传统视觉变换器的性能。
图像分类
Transformers
C
microsoft
27
0
Swin Large Patch4 Window12 384
Apache-2.0
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
图像分类
Transformers
S
microsoft
22.77k
1
Beit Large Patch16 512
Apache-2.0
BEiT是一种基于视觉Transformer的图像分类模型,通过自监督方式在ImageNet-21k上预训练,并在ImageNet-1k上微调。
图像分类
B
microsoft
683
11
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于分层窗口的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers
S
microsoft
1,063
7
Vit Base Patch16 384
Apache-2.0
Vision Transformer(ViT)是一种基于Transformer架构的图像分类模型,先在ImageNet-21k上预训练,后在ImageNet上微调。
图像分类
V
google
30.30k
38
Vit Large Patch16 384
Apache-2.0
视觉变换器(ViT)是一种基于变换器架构的图像分类模型,先在ImageNet-21k上预训练,后在ImageNet上微调。
图像分类
V
google
161.29k
12
Vit Large Patch32 384
Apache-2.0
该视觉Transformer(ViT)模型先在ImageNet-21k数据集上预训练,后在ImageNet数据集上微调,适用于图像分类任务。
图像分类
V
google
118.37k
16
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
图像分类
Transformers
S
microsoft
2,431
1
Vit Base Patch32 384
Apache-2.0
Vision Transformer(ViT)是一种基于Transformer架构的图像分类模型,通过在ImageNet-21k和ImageNet数据集上进行预训练和微调,实现了高效的图像识别能力。
图像分类
V
google
24.92k
20