CLIP视觉编码
Resnet101 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet101图像编码器,通过全局平均池化(GAP)提取图像特征
图像分类
Transformers
R
timm
104
0
Resnet50x64 Clip Gap.openai
Apache-2.0
基于ResNet50架构的CLIP模型图像编码器,具有64倍宽度扩展,使用全局平均池化(GAP)策略
图像分类
Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet50x16变体模型,专注于图像特征提取
图像分类
Transformers
R
timm
129
0
Resnet50x4 Clip Gap.openai
Apache-2.0
基于CLIP框架的ResNet50x4变体模型,专为图像特征提取设计
图像分类
Transformers
R
timm
170
0
Vit Large Patch14 Clip 224.dfn2b
其他
基于CLIP架构的视觉变换器模型,专注于图像特征提取,由苹果公司发布。
图像分类
Transformers
V
timm
178
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
图像分类
Transformers
V
timm
128
0
Vit Base Patch16 Clip 224.dfn2b
其他
基于CLIP架构的视觉Transformer模型,由苹果公司发布的DFN2B-CLIP图像编码器权重
图像分类
Transformers
V
timm
444
0
Vit Huge Patch14 Clip 224.laion2b
Apache-2.0
基于CLIP框架的ViT-Huge视觉编码器,使用laion2B数据集训练,支持图像特征提取
图像分类
Transformers
V
timm
1,969
0
Vit Base Patch32 Clip 256.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专注于图像特征提取,支持256x256分辨率输入
图像分类
Transformers
V
timm
89
0
Vit Base Patch32 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,专为图像特征提取设计,使用laion2B数据集训练
图像分类
Transformers
V
timm
83
0
Vit Base Patch32 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专为图像特征提取设计,使用DataComp XL数据集训练
图像分类
Transformers
V
timm
13
0
Vit Base Patch16 Clip 224.datacompxl
Apache-2.0
基于CLIP架构的视觉Transformer模型,专门用于图像特征提取,采用ViT-B/16结构并在DataComp XL数据集上训练
图像分类
Transformers
V
timm
36
0
Convnext Base.clip Laiona
Apache-2.0
基于CLIP框架的ConvNeXt Base模型,使用LAION-Aesthetic数据集训练,适用于图像特征提取任务。
图像分类
Transformers
C
timm
14
0
Clip Vit Base Patch32 Stanford Cars
基于CLIP视觉变换器架构,在斯坦福汽车数据集上微调的视觉分类模型
图像分类
Transformers
C
tanganke
4,143
1
Git Base One Piece
MIT
基于微软git-base模型微调的视觉语言模型,专门为动漫《海贼王》图像生成描述性文本字幕
图像生成文本
Transformers
支持多种语言
G
ayoubkirouane
16
0
Taiyi CLIP Roberta 102M Chinese
Apache-2.0
首个开源的中文CLIP模型,基于1.23亿图文对进行预训练,文本编码器采用RoBERTa-base架构。
文本生成图像
Transformers
中文
T
IDEA-CCNL
558
51