S

Siglip2 Base Patch16 224

由 google 开发
SigLIP 2是基于SigLIP改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
下载量 44.75k
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2是一个视觉语言模型,可用于零样本图像分类和图文检索等任务,也可作为其他视觉任务的视觉编码器。

模型特点

改进的训练目标
整合了解码器损失、全局-局部和掩码预测损失、宽高比和分辨率适应性等训练目标
多任务能力
支持零样本图像分类和图文检索等多种视觉语言任务
大规模预训练
在WebLI数据集上进行预训练,使用多达2048个TPU-v5e芯片

模型能力

零样本图像分类
图文检索
视觉特征提取

使用案例

图像分析
零样本图像分类
无需特定训练即可对图像进行分类
可根据提供的候选标签准确分类图像
视觉特征提取
提取图像的视觉特征表示
可用于下游视觉任务