V

Vit L 16 SigLIP2 384

由 timm 开发
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
下载量 581
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

该模型是基于SigLIP 2架构的视觉语言模型,主要用于零样本图像分类。它能够理解图像内容并与文本描述进行对比,从而实现无需特定训练的分类任务。

模型特点

Sigmoid损失函数
使用Sigmoid损失进行语言图像预训练,提高了模型的语义理解能力
多语言支持
能够处理多种语言的文本描述(基于论文推断)
改进的语义理解
相比前代模型,在语义理解和定位能力上有显著提升
密集特征提取
能够提取图像的密集特征,支持更精细的图像理解

模型能力

零样本图像分类
图像-文本对比
多语言图像理解
语义特征提取

使用案例

图像分类
零样本图像分类
无需特定训练即可对新类别图像进行分类
示例中能准确识别贝涅饼
内容理解
图像语义分析
理解图像中的语义内容和对象关系