V

Vit B 16 SigLIP 384

由 timm 开发
基于WebLI数据集训练的SigLIP(Sigmoid损失语言图像预训练)模型,用于零样本图像分类任务
下载量 4,119
发布时间 : 10/16/2023
模型介绍
内容详情
替代品

模型简介

该模型是一种对比图像-文本模型,采用Sigmoid损失函数进行预训练,适用于零样本图像分类任务。模型基于ViT-B-16架构,在WebLI数据集上训练。

模型特点

Sigmoid损失函数
采用创新的Sigmoid损失函数进行语言图像预训练,相比传统Softmax损失有更好表现
零样本学习能力
无需特定类别训练即可对新类别进行图像分类
高分辨率输入
支持384x384像素的高分辨率图像输入
多框架支持
同时支持OpenCLIP(图像+文本)和timm(仅图像)框架

模型能力

零样本图像分类
图像-文本匹配
图像特征提取
多模态理解

使用案例

内容分类
社交媒体图像分类
对社交媒体上的图像进行自动分类和标记
可准确识别图像中的物体、场景和活动
电子商务
产品图像分类
自动分类电子商务平台上的产品图像
无需为每个产品类别单独训练模型