V

Vit Gopt 16 SigLIP2 384

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
下载量 1,953
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专为零样本图像分类任务设计,能够理解图像内容并匹配文本描述

模型特点

SigLIP 2架构
采用改进的Sigmoid损失函数进行视觉语言预训练,提供更好的语义理解能力
零样本分类
无需特定任务的微调即可直接应用于图像分类任务
多语言支持
基于论文信息推断支持多语言文本理解(需进一步验证)

模型能力

图像-文本对比学习
零样本图像分类
图像语义理解
多模态特征提取

使用案例

图像理解
食品识别
识别图像中的食品类型(如甜甜圈、贝涅饼等)
示例中正确识别贝涅饼的概率最高
动物识别
识别图像中的动物种类(如猫、狗等)
内容审核
不当内容检测
自动检测图像中可能包含的不当内容