V

Vit SO400M 14 SigLIP2

由 timm 开发
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
下载量 1,178
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个对比式图文模型,主要用于零样本图像分类任务。它基于SigLIP 2架构,在WebLI数据集上进行训练,具有改进的语义理解和定位能力。

模型特点

改进的语义理解
基于SigLIP 2架构,具有比前代更好的语义理解能力
零样本分类能力
无需特定训练即可对未见过的类别进行分类
密集特征提取
能够提取图像的密集特征,支持更精细的图像理解
多语言支持
支持多种语言的文本输入(基于论文描述推断)

模型能力

零样本图像分类
图像-文本匹配
多模态特征提取
跨模态检索

使用案例

图像分类
零样本物体识别
无需训练即可识别新类别的物体
可准确识别示例中的贝奈特饼
内容理解
图像语义理解
理解图像内容并匹配相关文本描述