S

Siglip2 Giant Opt Patch16 256

由 google 开发
SigLIP 2 是一个先进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
下载量 3,936
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2 在 SigLIP 的基础上增加了多种训练目标,适用于零样本图像分类和图文检索等任务,也可作为视觉编码器用于其他视觉任务。

模型特点

统一的训练方案
整合了多项独立开发的技术,形成了一套统一的训练方案,提升了模型的综合能力。
增强的训练目标
增加了解码器损失、全局-局部和掩码预测损失等训练目标,提升了模型的性能。
宽高比和分辨率适应性
支持不同宽高比和分辨率的输入,增强了模型的适用性。

模型能力

零样本图像分类
图文检索
视觉编码

使用案例

图像分类
零样本图像分类
无需特定训练即可对图像进行分类,支持自定义标签。
在多种数据集上表现出色(具体评估结果见性能部分)
图文检索
图像与文本匹配
可用于检索与文本描述匹配的图像,或反之。