S

Siglip So400m Patch14 384

由 google 开发
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
下载量 6.1M
发布时间 : 1/8/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进损失函数版本的CLIP多模态模型,适用于零样本图像分类和图文检索等任务。其sigmoid损失函数无需通过全局相似度进行归一化,使得模型在不同批次规模下表现更优。

模型特点

改进的损失函数
采用sigmoid损失函数,仅作用于图像-文本对,无需全局相似度归一化,优化了小批次和大批次下的表现。
计算最优形状优化
基于SoViT-400m架构,通过计算最优形状优化设计,提升模型效率。
高分辨率支持
支持384x384分辨率的图像输入,适用于高精度视觉任务。

模型能力

零样本图像分类
图文检索
多模态理解

使用案例

图像分类
动物识别
识别图像中的动物类别,如猫、狗等。
高准确率的零样本分类能力。
图文检索
图像搜索
根据文本描述检索相关图像。
高效的图像-文本匹配能力。