V

Vit B 16 SigLIP I18n 256

由 timm 开发
一个在WebLI数据集上训练的SigLIP(用于语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
下载量 87.92k
发布时间 : 10/17/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于SigLIP(Sigmoid Loss for Language-Image Pre-training)训练的视觉-语言模型,主要用于零样本图像分类任务。它能够将图像和文本映射到同一嵌入空间,从而实现图像与文本的对比学习。

模型特点

Sigmoid损失函数
使用Sigmoid损失函数进行语言-图像预训练,相比传统的Softmax损失函数,能够更好地处理多标签分类任务。
零样本分类
支持零样本图像分类,无需针对特定任务进行微调即可直接应用于新类别。
多语言支持
模型名称中的'i18n'表示支持国际化,能够处理多种语言的文本输入。

模型能力

零样本图像分类
图像-文本对比学习
多语言文本处理

使用案例

图像分类
零样本图像分类
无需训练即可对图像进行分类,只需提供类别标签文本。
能够准确识别图像内容并匹配到最相关的文本标签。
跨模态检索
图像-文本匹配
计算图像和文本之间的相似度,用于检索相关的内容。