S

Siglip Large Patch16 384

由 google 开发
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的Sigmoid损失函数,适用于零样本图像分类和图文检索任务。
下载量 245.21k
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进损失函数版本的CLIP多模态模型,其Sigmoid损失函数仅作用于图像-文本对,无需通过全局相似度进行归一化。该特性使得模型在扩大批次规模的同时,也能在小批次场景下表现更优。

模型特点

改进的Sigmoid损失函数
仅作用于图像-文本对,无需通过全局相似度进行归一化,使得模型在扩大批次规模的同时,也能在小批次场景下表现更优。
高性能
在零样本图像分类和图文检索任务中表现优异,优于传统CLIP模型。
多模态支持
支持图像和文本的双模态处理,适用于多种视觉-语言任务。

模型能力

零样本图像分类
图文检索
多模态处理

使用案例

图像分类
零样本图像分类
无需训练即可对图像进行分类,支持自定义标签。
在多种数据集上表现优异,优于传统CLIP模型。
图文检索
图像搜索
根据文本描述检索相关图像。
高效准确,适用于大规模图像库。