S

Siglip2 Base Patch16 256

由 google 开发
SigLIP 2是一个多语言视觉语言编码器,改进了语义理解、定位和密集特征提取能力。
下载量 45.24k
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2在SigLIP的基础上整合了多项技术,提升了视觉语言任务的性能,可用于零样本图像分类和图文检索等任务。

模型特点

改进的语义理解
通过整合解码器损失等技术,提升了模型的语义理解能力。
增强的定位能力
采用全局-局部和掩码预测损失,提高了模型的定位精度。
密集特征提取
优化了密集特征提取能力,适用于多种视觉任务。
宽高比和分辨率适应性
支持多种宽高比和分辨率,增强了模型的适应性。

模型能力

零样本图像分类
图文检索
视觉特征提取

使用案例

图像分类
零样本图像分类
无需微调即可对图像进行分类,支持自定义标签。
在多种数据集上表现优异。
图文检索
跨模态检索
根据文本检索相关图像,或根据图像检索相关文本。
在WebLI数据集上预训练,具有强大的检索能力。