S

Siglip2 Base Patch16 384

由 google 开发
SigLIP 2 是基于 SigLIP 的视觉语言模型,通过统一训练方案提升了语义理解、定位和密集特征提取能力。
下载量 4,832
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

该模型可直接用于零样本图像分类、图文检索等任务,或作为视觉语言模型的视觉编码器。

模型特点

统一训练方案
整合了多种技术形成统一训练方案,提升语义理解、定位和密集特征提取能力。
多任务支持
支持零样本图像分类、图文检索等多种任务,也可作为视觉编码器使用。
高效训练
采用 WebLI 数据集进行预训练,使用多达 2048 块 TPU-v5e 芯片完成训练。

模型能力

零样本图像分类
图文检索
图像特征提取

使用案例

图像理解
零样本图像分类
无需特定训练即可对图像进行分类
可根据提供的候选标签返回最可能的分类结果
视觉编码器
作为其他视觉任务的视觉特征提取器
可提取高质量的图像嵌入特征