V

Vit SO400M 14 SigLIP

由 timm 开发
一个在WebLI数据集上训练的SigLIP(用于语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
下载量 79.55k
发布时间 : 10/16/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于SigLIP(Sigmoid损失语言图像预训练)的视觉-语言模型,主要用于零样本图像分类任务。它能够将图像和文本映射到同一嵌入空间,从而实现跨模态的相似性计算。

模型特点

Sigmoid损失函数
使用Sigmoid损失而非传统的Softmax损失进行语言-图像预训练,提高了模型的训练效率和性能。
零样本分类能力
无需特定任务的微调即可直接应用于新的图像分类任务。
大规模预训练
在WebLI这一大规模网络图像数据集上进行预训练,具有强大的泛化能力。

模型能力

零样本图像分类
图像-文本相似度计算
跨模态特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对图像进行分类,只需提供候选标签文本。
示例中显示对贝涅饼图像的正确分类概率最高
内容检索
跨模态检索
使用文本查询检索相关图像,或反之。