Vit Large Patch16 224.orig In21k
Apache-2.0
基于Vision Transformer(ViT)的图像分类模型,由Google Research在JAX框架下使用ImageNet-21k预训练,后移植到PyTorch。
图像分类
Transformers

V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
基于Vision Transformer的图像分类模型,在ImageNet-21k上预训练,适用于特征提取和微调
图像分类
Transformers

V
timm
23.07k
1
Dog Breeds Multiclass Image Classification With Vit
MIT
使用谷歌视觉Transformer架构微调的犬种分类模型,支持120种犬类的图像识别
图像分类
Transformers

D
wesleyacheng
584
4
Vit Base R50 S16 224.orig In21k
Apache-2.0
结合ResNet与Vision Transformer的混合图像分类模型,基于ImageNet-21k预训练,适用于特征提取和微调场景。
图像分类
Transformers

V
timm
876
0
Vit Large Patch32 224.orig In21k
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于特征提取和微调场景。
图像分类
Transformers

V
timm
771
0
Vit Huge Patch14 224.orig In21k
Apache-2.0
基于Vision Transformer (ViT)架构的大规模图像特征提取模型,在ImageNet-21k数据集上预训练
图像分类
Transformers

V
timm
3,214
2
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2是一种视觉Transformer模型,通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。
图像分类
Transformers

S
microsoft
3,816
10
Vit Large Patch32 224 In21k
Apache-2.0
该视觉Transformer(ViT)模型在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
V
google
4,943
1
Vit Base Patch32 224 In21k
Apache-2.0
该视觉变换器(ViT)模型在ImageNet-21k数据集上以224x224分辨率进行了预训练,适用于图像分类任务。
图像分类
V
google
35.10k
19
Beit Base Patch16 224 Pt22k
Apache-2.0
BEiT是一种基于视觉Transformer的模型,通过自监督学习在ImageNet-21k数据集上预训练,用于图像分类任务。
图像分类
B
microsoft
2,647
3
Swin Base Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一种基于分层窗口计算的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers

S
microsoft
13.30k
15
Vit Large Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,适用于图像特征提取和下游任务微调。
图像分类
V
google
92.63k
26
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于分层窗口的视觉Transformer模型,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers

S
microsoft
1,063
7
Swin Large Patch4 Window7 224 In22k
Apache-2.0
Swin Transformer是一种基于移动窗口的分层视觉Transformer,在ImageNet-21k数据集上预训练,适用于图像分类任务。
图像分类
Transformers

S
microsoft
387
2
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformer是一种基于移位窗口的分层视觉Transformer模型,专为图像分类任务设计。
图像分类
Transformers

S
microsoft
2,431
1
Beit Large Patch16 224 Pt22k
Apache-2.0
BEiT是一种基于视觉Transformer(ViT)的自监督学习模型,通过ImageNet-21k数据集预训练,用于图像分类任务。
图像分类
B
microsoft
237
2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文