V

Vit SO400M 16 SigLIP2 512

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务
下载量 1,191
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比式图文模型,采用SigLIP 2架构,具有改进的语义理解和定位能力,支持多语言视觉语言编码

模型特点

改进的语义理解
采用SigLIP 2架构,相比前代模型具有更好的语义理解能力
多语言支持
支持多语言视觉语言编码,可处理不同语言的文本输入
零样本分类能力
无需特定训练即可对新类别进行图像分类
密集特征提取
能够提取图像的密集特征,支持更精细的图像理解

模型能力

零样本图像分类
图像-文本匹配
多模态特征提取
跨模态检索

使用案例

图像理解
零样本图像分类
无需特定训练即可对新类别图像进行分类
可准确识别图像中的对象类别
图像检索
根据文本描述检索相关图像
可实现高效的跨模态检索
多模态应用
图文匹配
评估图像与文本描述的匹配程度
可应用于内容审核、广告匹配等场景