V

Vit SO400M 16 SigLIP2 384

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务。
下载量 106.30k
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专为零样本图像分类设计,能够理解图像和文本之间的语义关系。

模型特点

零样本分类能力
无需特定训练即可对新类别进行图像分类
改进的语义理解
SigLIP 2架构提供了更好的语义理解和定位能力
密集特征提取
能够提取图像的密集特征表示

模型能力

零样本图像分类
图像-文本语义匹配
多模态特征提取

使用案例

图像理解
食品识别
识别各种食品类别如甜甜圈、贝涅饼等
示例中准确识别贝涅饼的概率最高
动物识别
区分不同动物类别如猫、狗等
内容审核
不当内容检测
识别图像中可能包含的不当内容