V

Vit B 16 SigLIP 256

由 timm 开发
一个在WebLI数据集上训练的SigLIP(语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
下载量 17.15k
发布时间 : 10/16/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于Vision Transformer架构的对比图像-文本模型,使用Sigmoid损失进行预训练,支持零样本图像分类。

模型特点

Sigmoid损失函数
采用创新的Sigmoid损失进行语言-图像预训练,相比传统Softmax损失有更好的性能表现
零样本分类能力
无需微调即可直接应用于新的图像分类任务
大规模预训练
在WebLI大规模数据集上进行预训练,具有强大的泛化能力

模型能力

图像-文本对比学习
零样本图像分类
图像特征提取
多模态理解

使用案例

图像分类
零样本图像识别
无需训练即可识别新类别的图像
示例中能准确识别贝涅饼
内容理解
图像-文本匹配
计算图像与文本描述的相似度