V

Vit B 32 SigLIP2 256

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
下载量 691
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专门用于零样本图像分类任务。它采用了SigLIP 2架构,在WebLI数据集上进行训练,能够理解图像与文本之间的语义关系。

模型特点

SigLIP 2架构
采用改进的SigLIP 2架构,具有更好的语义理解、定位和密集特征提取能力
零样本分类
无需特定训练即可对新类别进行图像分类
多语言支持
支持多语言文本输入(基于论文推断)
高效视觉编码
使用Vision Transformer架构高效编码图像特征

模型能力

零样本图像分类
图像-文本匹配
多模态特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对图像进行分类,支持动态添加新类别
可输出各类别的概率分布
图像检索
根据文本描述检索相关图像