S

Siglip2 Base Patch16 512

由 google 开发
SigLIP 2 是一个视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
下载量 28.01k
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2 基于 SigLIP 的预训练目标,通过统一的训练方案提升了视觉语言任务的性能,适用于零样本图像分类、图文检索等任务。

模型特点

统一的训练方案
整合了多项独立开发的技术,形成了一套统一的训练方案,提升了语义理解、定位和密集特征提取能力。
多任务支持
支持零样本图像分类、图文检索等任务,并可作为视觉语言模型的视觉编码器。
创新训练目标
增加了解码器损失、全局-局部和掩码预测损失、宽高比和分辨率适应性等创新训练目标。

模型能力

零样本图像分类
图文检索
视觉编码

使用案例

图像分类
零样本图像分类
使用候选标签对图像进行分类,无需预先训练特定类别的模型。
图文检索
图像与文本匹配
将图像与文本进行匹配,用于检索相关图像或文本。