V

Vit L 16 SigLIP2 256

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
下载量 888
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专门用于零样本图像分类任务。它采用了SigLIP 2架构,在WebLI数据集上进行训练,能够理解图像和文本之间的语义关系。

模型特点

SigLIP 2架构
采用改进的SigLIP 2架构,具有更好的语义理解、定位和密集特征提取能力
零样本学习
无需特定任务的微调即可执行图像分类任务
多语言支持
支持多语言文本输入(基于论文描述推断)
高效对比学习
使用Sigmoid损失函数进行语言图像预训练,提高学习效率

模型能力

零样本图像分类
图像-文本对比学习
多语言文本理解
语义特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对图像进行分类,支持自定义类别标签
示例中展示了准确识别贝涅饼的能力
多模态应用
图像-文本匹配
计算图像与文本描述的相似度