V

Vit SO400M 14 SigLIP 384

由 timm 开发
基于WebLI数据集训练的SigLIP(语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
下载量 158.84k
发布时间 : 10/16/2023
模型介绍
内容详情
替代品

模型简介

该模型采用对比图像-文本预训练方法,通过Sigmoid损失函数优化,能够实现高效的零样本图像分类。

模型特点

Sigmoid损失函数
采用Sigmoid损失进行语言图像预训练,提高了模型的对比学习效果。
零样本分类能力
无需特定任务的微调即可直接应用于新的图像分类任务。
高效视觉编码
基于Vision Transformer架构,能够高效提取图像特征。

模型能力

图像特征提取
零样本图像分类
多模态对比学习

使用案例

图像理解
食品识别
识别图像中的食品类别,如甜甜圈、贝奈特饼等。
可准确识别常见食品类别
动物识别
识别图像中的动物类别,如猫、狗等。
对常见动物有较高识别准确率
内容审核
不当内容检测
识别图像中可能包含的不当内容。