V

Vit L 16 SigLIP2 512

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
下载量 147
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,采用SigLIP 2架构,主要用于零样本图像分类任务。模型在WebLI数据集上训练,能够理解图像和文本之间的语义关系。

模型特点

SigLIP 2架构
采用改进的SigLIP 2架构,具有更好的语义理解、定位和密集特征提取能力
零样本学习
支持零样本图像分类,无需特定任务的微调即可应用于新类别
多语言支持
模型支持多语言文本输入(基于论文描述推断)
高效对比学习
使用Sigmoid损失函数进行语言图像预训练,提高学习效率

模型能力

图像-文本对比学习
零样本图像分类
多模态特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对新类别图像进行分类
示例中显示能准确识别贝涅饼等食物类别
多模态应用
图像-文本匹配
计算图像与文本描述的相似度