Eva Giant Patch14 Clip 224.laion400m
MIT
EVA CLIP模型是基于OpenCLIP和timm框架的视觉语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
124
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIP是基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
54
0
Eva02 Enormous Patch14 Clip 224.laion2b
MIT
EVA-CLIP是一个基于CLIP架构的视觉-语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
38
0
Eva02 Base Patch16 Clip 224.merged2b
MIT
EVA CLIP模型是基于OpenCLIP与timm框架构建的视觉语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
3,029
0
Vit Large Patch14 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,专注于图像特征提取
图像分类
Transformers
V
timm
502
0
Vit Large Patch14 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专门用于图像特征提取,由LAION组织发布。
图像分类
Transformers
V
timm
14
0
Vit Base Patch16 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,仅包含图像编码器部分,适用于图像特征提取任务
图像分类
Transformers
V
timm
4,460
0
Vit Base Patch16 Plus Clip 240.laion400m E31
MIT
基于LAION-400M数据集训练的视觉-语言双用途模型,支持零样本图像分类任务
图像分类
V
timm
37.23k
0
Resnet50x4 Clip.openai
MIT
基于CLIP架构的ResNet50x4视觉语言模型,支持零样本图像分类任务
图像生成文本
R
timm
2,303
0
Resnet50 Clip.openai
MIT
基于ResNet50架构和CLIP技术的零样本图像分类模型
图像分类
R
timm
11.91k
0
Mobileclip S0
其他
MobileCLIP S0 是苹果 ml-mobileclip 项目的 ONNX 适配版本,专为移动设备优化的零样本图像分类模型。
文本生成图像
Transformers
M
Xenova
295
1
Vit Betwixt Patch32 Clip 224.tinyclip Laion400m
MIT
基于ViT架构的小型CLIP模型,适用于零样本图像分类任务,训练于LAION-400M数据集。
图像分类
V
timm
113
1
Vit Medium Patch32 Clip 224.tinyclip Laion400m
MIT
基于OpenCLIP库的视觉语言模型,支持零样本图像分类任务。
图像分类
V
timm
110
0
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基于ViT架构的CLIP模型,用于零样本图像分类任务
图像分类
V
timm
144
0
Chinese Clip Vit Base Patch16
基于ViT架构的中文CLIP模型,支持图像与文本的多模态理解
文本生成图像
Transformers
C
Xenova
264
1
CLIP ViT L 14 CommonPool.XL S13b B90k
MIT
基于CLIP架构的视觉-语言预训练模型,支持零样本图像分类和跨模态检索任务
文本生成图像
C
laion
4,255
2
CLIP ViT B 16 CommonPool.L.clip S1b B8k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类任务
文本生成图像
C
laion
138
0
CLIP ViT B 32 DataComp.M S128m B4k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类任务,使用DataComp.M数据集训练
文本生成图像
C
laion
212
0
CLIP ViT B 32 CommonPool.M.laion S128m B4k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类任务
文本生成图像
C
laion
65
0
CLIP ViT B 32 CommonPool.S S13m B4k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类任务
文本生成图像
C
laion
79
0
Eva02 Base Patch16 Clip 224.merged2b S8b B131k
MIT
基于EVA02架构的CLIP模型,适用于零样本图像分类任务
文本生成图像
E
timm
29.73k
0