Transformer编码器
Dinov2 Giant
Apache-2.0
采用DINOv2方法训练的视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers
D
facebook
117.56k
41
Dinov2 Base
Apache-2.0
基于DINOv2方法训练的视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers
D
facebook
1.9M
126
Dit Large Finetuned Rvlcdip
基于IIT-CDIP预训练并在RVL-CDIP上微调的文档图像分类模型,采用Transformer架构
图像分类
Transformers
D
microsoft
67
8
Vit Large Patch32 224 In21k
Apache-2.0
该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
V
google
4,943
1
Mit B1
其他
SegFormer是一个基于Transformer架构的语义分割模型,采用分层编码器和轻量级MLP解码头设计。
图像分割
Transformers
M
nvidia
7,305
1
Vit Large Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,适用于图像特征提取和下游任务微调。
图像分类
V
google
92.63k
26
Vit Huge Patch14 224 In21k
Apache-2.0
基于ImageNet-21k预训练的视觉Transformer模型,采用超大尺寸架构,适用于图像分类等视觉任务。
图像分类
V
google
47.78k
20
Vit Large Patch16 384
Apache-2.0
视觉变换器(ViT)是一种基于变换器架构的图像分类模型,先在ImageNet-21k上预训练,后在ImageNet上微调。
图像分类
V
google
161.29k
12
Mit B2
其他
SegFormer是一个基于Transformer的语义分割模型,其编码器在Imagenet-1k上进行了微调。
图像分割
Transformers
M
nvidia
13.86k
4
Ruroberta Large
由SberDevices团队预训练的俄语RoBERTa大模型,参数量3.55亿,基于250GB俄语文本训练
大型语言模型
Transformers
其他
R
ai-forever
21.00k
45
Mit B0
其他
SegFormer是一个基于Transformer的语义分割模型,采用分层编码器和轻量级MLP解码头设计,在ADE20K和Cityscapes等基准测试中表现优异。
图像分割
Transformers
M
nvidia
83.99k
35
Vit Large Patch32 384
Apache-2.0
该视觉Transformer(ViT)模型先在ImageNet-21k数据集上预训练,后在ImageNet数据集上微调,适用于图像分类任务。
图像分类
V
google
118.37k
16