S

Siglip Base Patch16 384

由 google 开发
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的sigmoid损失函数,适用于零样本图像分类和图文检索任务。
下载量 2,570
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进损失函数版本的CLIP多模态模型,其sigmoid损失函数仅作用于图像-文本对,无需通过全局相似度进行归一化。适用于零样本图像分类和图文检索等任务。

模型特点

改进的损失函数
采用sigmoid损失函数,仅作用于图像-文本对,无需通过全局相似度进行归一化,使得模型在扩大批次规模的同时,也能在小批次场景下表现更优。
高效训练
在16块TPU-v4芯片上仅需三天即可完成训练。
高分辨率支持
支持384x384分辨率的图像输入。

模型能力

零样本图像分类
图文检索

使用案例

图像分类
动物识别
识别图像中的动物类型,如猫、狗等。
能够准确识别图像中的动物类型。
图文检索
图像搜索
根据文本描述搜索相关图像。
能够根据文本描述高效检索相关图像。