S

Siglip Base Patch16 224

由 google 开发
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
下载量 250.28k
发布时间 : 9/30/2023
模型介绍
内容详情
替代品

模型简介

SigLIP是CLIP模型的改进版本,通过Sigmoid损失函数优化了图像与文本的匹配效果,适用于零样本图像分类和图文检索等任务

模型特点

改进的Sigmoid损失函数
无需全局相似度归一化,在小批量和大批量场景下均表现优异
高效预训练
基于WebLI大规模数据集进行预训练,学习丰富的视觉语言表示
零样本能力
无需微调即可直接应用于图像分类和检索任务

模型能力

零样本图像分类
图文检索
多模态理解

使用案例

图像理解
动物识别
识别图片中的动物类别
可准确区分猫、狗等常见动物
场景理解
理解图片中的场景和活动
能识别如'播放音乐'、'进行运动'等活动
内容检索
图文匹配
根据文本描述检索相关图片
高效匹配图片与描述性文本