S

Siglip Base Patch16 256

由 google 开发
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,在图像分类和图文检索任务中表现优异。
下载量 12.71k
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是CLIP的改进版本,通过优化损失函数提升了性能,适用于零样本图像分类和图文检索等任务。

模型特点

改进的损失函数
采用Sigmoid损失函数,仅作用于图像-文本对,无需全局归一化,在小批量和大批量情况下均有更好表现。
高效训练
在16块TPU-v4芯片上仅需三天即可完成训练,计算效率高。
多模态能力
同时处理视觉和文本信息,实现图像与文本的跨模态理解。

模型能力

零样本图像分类
图文检索
跨模态理解

使用案例

图像理解
图像分类
无需特定训练即可对图像进行分类,支持自定义标签。
在多种数据集上表现优于传统CLIP模型。
信息检索
图文匹配
根据文本描述检索相关图像,或根据图像生成描述文本。