多模态检索
Fg Clip Base
Apache-2.0
FG-CLIP是一个细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级别的图像-文本对齐。
文本生成图像
Transformers
英语
F
qihoo360
692
2
CLIP ViT H 14 Laion2b S32b B79k
MIT
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
文本生成图像
C
ModelsLab
132
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
recallapp
17
0
CLIP ViT L 14 Spectrum Icons 20k
MIT
基于CLIP ViT-L/14微调的视觉语言模型,专为抽象图像-文本检索任务优化
文本生成图像
TensorBoard
英语
C
JianLiao
1,576
1
Prolip ViT B 16 DC 1B 12 8B
MIT
基于DataComp 1B数据集预训练的概率语言-图像预训练(ProLIP)ViT-B/16模型
文本生成图像
P
SanghyukChun
460
0
Jina Clip V2
Jina CLIP v2 是一个通用的多语言多模态嵌入模型,适用于文本和图像,支持89种语言,具有更高的图像分辨率和嵌套表示能力。
文本生成图像
Transformers
支持多种语言
J
jinaai
47.56k
219
Colpali V1.1
MIT
ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型,用于高效地从视觉特征中索引文档。
文本生成图像
Safetensors
英语
C
vidore
196
2
Patentclip RN101
MIT
基于OpenCLIP库的零样本图像分类模型,适用于专利图像分析
图像分类
P
hhshomee
15
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B数据集上训练的CLIP ViT-B/32模型,支持零样本图像分类和跨模态检索任务
文本生成图像
C
rroset
48
0
CLIP GmP ViT L 14
MIT
基于OpenAI CLIP ViT-L/14的微调模型,通过几何参数化(GmP)实现性能提升,特别优化了文本编码能力
文本生成图像
Transformers
C
zer0int
6,275
433
CLIP ViT B 32 DataComp.XL S13b B90k
MIT
这是一个基于 DataComp-1B 数据集训练的 CLIP ViT-B/32 模型,用于零样本图像分类和图像文本检索等任务。
文本生成图像
C
laion
12.12k
4
CLIP ViT B 32 256x256 DataComp S34b B86k
MIT
这是一个基于DataComp-1B数据集训练的CLIP ViT-B/32模型,使用OpenCLIP框架在256x256分辨率下完成训练,主要用于零样本图像分类和图文检索任务。
文本生成图像
C
laion
4,332
8
Pmc Vit L 14 Hf
基于CLIP-ViT-L/14在PMC-OA数据集上微调的视觉语言模型
文本生成图像
Transformers
P
ryanyip7777
260
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
这是一个基于 DataComp-1B 数据集训练的 CLIP ViT-L/14 模型,支持零样本图像分类和图像文本检索任务。
图像生成文本
C
flavour
39.22k
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
这是一个使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/16模型,主要用于零样本图像分类和图像文本检索。
文本生成图像
C
laion
4,461
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
该模型是基于DataComp-1B数据集训练的CLIP ViT-L/14模型,主要用于零样本图像分类和图文检索任务。
文本生成图像
C
laion
586.75k
113
Arabic Clip Vit Base Patch32
阿拉伯语CLIP是对比语言-图像预训练(CLIP)模型针对阿拉伯语的适配版本,能够从图像中学习概念并将其与阿拉伯语文本描述相关联。
文本生成图像
阿拉伯语
A
LinaAlhuri
33
2
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架训练,是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率
文本生成图像
C
laion
9,412
22
CLIP Convnext Large D 320.laion2B S29b B131k Ft
MIT
基于ConvNeXt-Large架构的CLIP模型,在LAION-2B数据集上训练,支持零样本图像分类和图像文本检索任务。
文本生成图像
TensorBoard
C
laion
3,810
3
CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup
MIT
基于ConvNeXt-Large架构的CLIP模型,在LAION-2B数据集上训练,支持零样本图像分类和图像文本检索任务
文本生成图像
TensorBoard
C
laion
83.56k
19
CLIP Convnext Large D.laion2b S26b B102k Augreg
MIT
基于LAION-2B数据集训练的大规模ConvNeXt-Large CLIP模型,支持零样本图像分类和图文检索任务
文本生成图像
TensorBoard
C
laion
80.74k
5
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
基于OpenCLIP框架在LAION-2B数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
laion
565.80k
261
CLIP Convnext Base W Laion2b S13b B82k Augreg
MIT
基于ConvNeXt-Base架构的CLIP模型,使用OpenCLIP在LAION-5B子集上训练,专注于零样本图像分类任务
文本生成图像
TensorBoard
C
laion
40.86k
7
CLIP Convnext Base W 320 Laion Aesthetic S13b B82k
MIT
基于ConvNeXt-Base架构的CLIP模型,在LAION-5B子集上训练,适用于零样本图像分类和图像文本检索任务。
文本生成图像
TensorBoard
C
laion
12.67k
3
CLIP Convnext Base W Laion Aesthetic S13b B82k
MIT
基于LAION-Aesthetic数据集训练的ConvNeXt-Base架构CLIP模型,支持零样本图像分类和跨模态检索任务
文本生成图像
TensorBoard
C
laion
703
5
CLIP Convnext Base W Laion2b S13b B82k
MIT
基于ConvNeXt-Base架构的CLIP模型,在LAION-5B子集上训练,支持零样本图像分类和图文检索任务
文本生成图像
C
laion
4,522
5
CLIP ViT B 16 Laion2b S34b B88k
MIT
基于OpenCLIP框架训练的多模态视觉语言模型,在LAION-2B英语数据集上训练完成,支持零样本图像分类任务
文本生成图像
C
laion
251.02k
33
Taiyi CLIP RoBERTa 102M ViT L Chinese
Apache-2.0
首个开源的中文CLIP模型,基于1.23亿图文对进行预训练,文本编码器采用RoBERTa-base架构。
文本生成图像
Transformers
中文
T
IDEA-CCNL
668
19
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
C
laion
1.8M
368
CLIP ViT L 14 Laion2b S32b B82k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉语言模型,支持零样本图像分类和图文检索
文本生成图像
TensorBoard
C
laion
79.01k
48
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
laion
1.1M
112