V

Vit B 16 SigLIP2 384

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务
下载量 1,497
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比式图文模型,采用Sigmoid损失函数进行预训练,支持多语言视觉语言编码,具有改进的语义理解和定位能力

模型特点

Sigmoid损失函数
采用创新的Sigmoid损失函数进行语言图像预训练,提高了模型性能
改进的语义理解
相比前代模型具有更好的语义理解和定位能力
密集特征提取
能够提取图像的密集特征,适用于更复杂的视觉任务
多语言支持
支持多语言视觉语言编码

模型能力

零样本图像分类
图像语义理解
图文对比学习
多语言视觉语言编码

使用案例

计算机视觉
零样本图像分类
无需特定训练即可对图像进行分类
示例中显示对贝奈特饼的识别准确率较高
视觉语义理解
理解图像中的语义内容