V

Vit L 16 SigLIP 384

由 timm 开发
基于WebLI数据集训练的SigLIP(Sigmoid Loss for Language-Image Pre-training)模型,用于零样本图像分类任务。
下载量 3,008
发布时间 : 10/16/2023
模型介绍
内容详情
替代品

模型简介

该模型是一种对比图像-文本模型,采用Sigmoid损失函数进行语言-图像预训练,支持零样本图像分类任务。

模型特点

Sigmoid损失函数
采用Sigmoid损失函数进行语言-图像预训练,相比传统Softmax损失函数在某些任务上表现更优。
零样本分类能力
支持零样本图像分类,无需针对特定任务进行微调即可应用于新类别。
大尺寸视觉Transformer
基于ViT-L-16架构,具有强大的图像特征提取能力。

模型能力

零样本图像分类
图像-文本对比学习
图像特征提取

使用案例

计算机视觉
图像分类
无需训练即可对新类别图像进行分类
图像检索
基于文本描述检索相关图像