图文检索
Fg Clip Large
Apache-2.0
FG-CLIP是一种细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级的图文对齐,提升细粒度视觉理解能力。
多模态对齐
Transformers
英语
F
qihoo360
538
3
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2 是一个多语言视觉-语言编码器,整合了SigLIP的预训练目标并增加了新的训练方案,提升了语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的视觉语言模型,增强了语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 是基于 SigLIP 改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 是一个先进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 是在 SigLIP 基础上改进的多语言视觉语言编码器,提升了语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 改进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2 是一个视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 的视觉语言模型,通过统一训练方案提升了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2是一个多语言视觉语言编码器,改进了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
45.24k
4
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基于SigLIP改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
44.75k
38
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进版本,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
9,419
4
Llm Jp Clip Vit Large Patch14
Apache-2.0
基于OpenCLIP框架训练的日语CLIP模型,在14.5亿日文图文对数据集上训练,支持零样本图像分类和图文检索任务
文本生成图像
日语
L
llm-jp
254
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日语CLIP模型,基于OpenCLIP框架训练,支持零样本图像分类任务
文本生成图像
日语
L
llm-jp
40
1
Tic CLIP Basic Oracle
其他
TiC-CLIP是基于OpenCLIP改进的视觉语言模型,专注于时间持续学习,训练数据涵盖2014至2022年
文本生成图像
T
apple
37
0
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers
S
google
6.1M
526
Siglip Large Patch16 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的Sigmoid损失函数,适用于零样本图像分类和图文检索任务。
图像生成文本
Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数提升性能
图像生成文本
Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像
Transformers
S
google
237.79k
24
Siglip Base Patch16 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的sigmoid损失函数,适用于零样本图像分类和图文检索任务。
图像生成文本
Transformers
S
google
2,570
10
Siglip Base Patch16 256
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像
Transformers
S
google
12.71k
5
Siglip Base Patch16 224
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
图像生成文本
Transformers
S
google
250.28k
43
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,专注于零样本图像分类任务。
文本生成图像
C
laion
63
2
Align Base
ALIGN是一个视觉-语言双编码器模型,通过对比学习实现图像与文本表征的对齐,利用大规模噪声数据实现先进的跨模态表征效果。
多模态对齐
Transformers
英语
A
kakaobrain
78.28k
25