S

Siglip Base Patch16 512

由 google 开发
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
下载量 237.79k
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进损失函数后的CLIP多模态模型,其sigmoid损失函数仅作用于图像-文本对,无需通过全局相似度进行归一化,使得模型在扩大批处理规模的同时,也能在小批量场景下表现更优。

模型特点

改进的sigmoid损失函数
仅作用于图像-文本对,无需全局相似度归一化,提升小批量场景性能
高效预训练
在WebLi数据集上预训练,支持512x512分辨率图像处理
零样本学习能力
无需微调即可直接应用于图像分类和检索任务

模型能力

零样本图像分类
图文检索
多模态理解

使用案例

图像理解
动物图像分类
识别图像中的动物类别(如猫、狗)
可准确区分不同动物类别
场景理解
识别图像中的场景或活动(如播放音乐、进行运动)
能理解复杂场景中的活动类型
内容检索
图文匹配
根据文本描述检索相关图像
高效匹配文本与图像内容