S

Siglip Base Patch16 256 Multilingual

由 google 开发
SigLIP是基于WebLi数据集预训练的改进版CLIP模型,采用Sigmoid损失函数优化图像-文本匹配任务
下载量 175.86k
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

多模态视觉语言模型,适用于零样本图像分类和图文检索任务,支持多语言文本输入

模型特点

Sigmoid损失函数
改进的损失函数仅需图像-文本对计算,无需全局相似度归一化,提升小批次训练效果
多语言支持
支持多语言文本输入,适用于跨语言视觉理解任务
高效预训练
在16块TPU-v4芯片上仅需3天完成训练

模型能力

零样本图像分类
图文相似度计算
多语言视觉理解

使用案例

内容理解
社交媒体图片分类
无需微调即可对用户上传图片进行多标签分类
准确率优于传统CLIP模型(见论文对比)
跨模态检索
图文搜索引擎
实现文本查询匹配相关图片或反向搜索功能