S

Siglip Large Patch16 256

由 google 开发
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数提升性能
下载量 24.13k
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进损失函数后的CLIP多模态模型,适用于零样本图像分类、图文检索等任务

模型特点

改进的损失函数
采用sigmoid损失函数,无需全局归一化,在小批次和大批次场景下均表现优异
高效预训练
在16块TPU-v4芯片上仅需三天完成训练
多模态理解
同时处理图像和文本信息,实现跨模态语义对齐

模型能力

零样本图像分类
图文相似度计算
跨模态检索

使用案例

内容理解
社交媒体图片分类
无需训练即可对用户上传图片进行自动分类
准确率优于传统CLIP模型
电子商务
商品图文匹配
自动检测商品图片与描述文本的一致性