高精度视觉模型
Comp SigLIP So400M
Apache-2.0
CoMP-MM-1B是一个支持原生图像分辨率输入的视觉基础模型(VFM),基于SigLIP持续预训练而成。
多模态融合
C
SliMM-X
33
1
Sam2 Hiera Base Plus.fb R896 2pt1
Apache-2.0
基于HieraDet图像编码器的SAM2模型权重,专注于图像特征提取任务
图像分割
Transformers
S
timm
148
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化,适用于图像特征提取任务。
图像分类
Transformers
V
timm
13
0
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉与视觉-语言任务。
文本生成图像
Transformers
F
microsoft
269.44k
349
Resnet50x16 Clip.openai
MIT
基于CLIP框架的ResNet50x16视觉模型,支持零样本图像分类任务
图像分类
R
timm
702
0
Resnet50x4 Clip.openai
MIT
基于CLIP架构的ResNet50x4视觉语言模型,支持零样本图像分类任务
图像生成文本
R
timm
2,303
0
Vit Bigg 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,专注于零样本图像分类任务,通过对比式图文训练实现高效视觉表示学习
文本生成图像
V
UCSC-VLAA
623
4
Vit H 14 CLIPA 336 Datacomp1b
Apache-2.0
CLIPA-v2模型,一种高效的对比式图文模型,专注于零样本图像分类任务。
文本生成图像
V
UCSC-VLAA
493
4
Vit H 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,一个高效的对比式图文模型,专为零样本图像分类任务设计。
文本生成图像
V
UCSC-VLAA
65
1
Vit H 14 CLIPA 336 Laion2b
Apache-2.0
CLIPA-v2模型,基于laion2B-en数据集训练,专注于零样本图像分类任务
文本生成图像
V
UCSC-VLAA
74
4
Vit Base Patch16 224 In21k
基于Transformer架构的视觉模型,通过16x16图像块处理224x224分辨率输入,在ImageNet-21k数据集上预训练
图像分类
Transformers
V
Xenova
132
3
Eva02 Enormous Patch14 Plus Clip 224.laion2b S9b B144k
MIT
基于EVA02架构的大规模视觉语言模型,支持零样本图像分类任务
文本生成图像
E
timm
12.57k
8
Eva Giant Patch14 Plus Clip 224.merged2b S11b B114k
MIT
EVA-Giant是基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
1,080
1
Car Brands Classification
Apache-2.0
基于BEiT架构的预训练图像分类模型,支持越南语标签,适用于视觉任务
图像分类
Transformers
其他
C
lamnt2008
19
3
Convnextv2 Huge 1k 224
Apache-2.0
ConvNeXt V2是基于FCMAE框架预训练的纯卷积模型,在ImageNet-1K数据集上微调,适用于图像分类任务。
图像分类
Transformers
C
facebook
272
0
Convnext Large 224 22k 1k
Apache-2.0
ConvNeXT是一个纯卷积模型,受视觉Transformer设计启发,在ImageNet-22k上预训练并在ImageNet-1k上微调,性能优于传统视觉Transformer。
图像分类
Transformers
C
facebook
13.71k
3