S

Siglip2 So400m Patch14 224

由 google 开发
SigLIP 2 是基于 SigLIP 改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
下载量 23.11k
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2 是一个视觉语言模型,可用于零样本图像分类、图文检索等任务,或作为其他视觉任务的视觉编码器。

模型特点

改进的语义理解
整合了多种技术,提升了模型的语义理解能力。
增强的定位能力
通过全局-局部和掩码预测损失,提高了模型的定位能力。
密集特征提取
能够提取图像的密集特征,适用于多种视觉任务。
宽高比和分辨率适应性
支持不同宽高比和分辨率的图像输入。

模型能力

零样本图像分类
图文检索
视觉编码

使用案例

图像分类
零样本图像分类
无需训练即可对图像进行分类,支持自定义标签。
在多种数据集上表现优异。
图文检索
图文匹配
根据文本描述检索相关图像,或根据图像生成相关文本描述。