S

Siglip2 Base Patch16 Naflex

由 google 开发
SigLIP 2 是一个多语言视觉-语言编码器,整合了SigLIP的预训练目标并增加了新的训练方案,提升了语义理解、定位和密集特征提取能力。
下载量 10.68k
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

SigLIP 2 可用于零样本图像分类、图文检索等任务,或作为视觉语言模型的视觉编码器。

模型特点

增强的语义理解
整合了SigLIP的预训练目标并增加了新的训练方案,提升了语义理解能力。
定位和密集特征提取
通过改进的训练目标,增强了定位和密集特征提取能力。
多任务支持
支持零样本图像分类、图文检索等多种视觉-语言任务。

模型能力

零样本图像分类
图文检索
视觉编码

使用案例

图像分类
零样本图像分类
无需微调即可对图像进行分类,支持自定义标签。
图文检索
图像搜索
根据文本描述检索相关图像。