ImageNet优化
Hiera Base 224 In1k Hf
Hiera是一种分层式视觉Transformer模型,兼具快速、强大且简洁的特点,在广泛图像与视频任务中超越现有技术水平的同时显著提升了运行速度。
图像分类
Transformers
英语
H
facebook
188
2
Tecoa2 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,在ImageNet上进行监督式对抗微调,具有鲁棒性增强特性
文本生成图像
T
chs20
53
1
Fare2 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,通过无监督对抗微调提升鲁棒性
文本生成图像
F
chs20
543
2
Fare4 Clip
MIT
基于OpenAI CLIP初始化的视觉语言模型,通过无监督对抗微调提升鲁棒性
文本生成图像
F
chs20
45
1
Vit Hybrid Base Bit 384
Apache-2.0
混合视觉变换器(ViT)模型结合了卷积网络和Transformer架构,用于图像分类任务,在ImageNet上表现出色。
图像分类
Transformers
V
google
992.28k
6
Convnext Large 224
Apache-2.0
ConvNeXT是一个纯卷积模型,设计灵感来自视觉Transformer,在ImageNet-1k数据集上以224x224分辨率训练而成。
图像分类
Transformers
C
facebook
740
27
Convnext Small 224
Apache-2.0
ConvNeXT是一个纯卷积模型,设计灵感来自视觉变换器,在ImageNet-1k数据集上训练,性能优于传统视觉变换器。
图像分类
Transformers
C
facebook
586
5
Convnext Base 224
Apache-2.0
ConvNeXT是一个纯卷积模型,设计灵感源自视觉Transformer,在ImageNet-1k数据集上训练,用于图像分类任务。
图像分类
Transformers
C
facebook
2,756
9