V

Vit SO400M 16 SigLIP2 256

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
下载量 998
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专门用于零样本图像分类任务。模型采用SigLIP 2架构,在WebLI数据集上训练,具有改进的语义理解和定位能力。

模型特点

改进的语义理解
采用SigLIP 2架构,相比前代模型具有更好的语义理解能力
零样本分类能力
无需特定训练即可对新类别进行图像分类
多语言支持
支持多种语言的文本输入(基于论文描述推断)
高效视觉编码
使用16x16的ViT架构进行高效图像特征提取

模型能力

零样本图像分类
图像-文本匹配
多模态特征提取

使用案例

图像分类
食品识别
识别各种食品类别,如甜甜圈、贝奈特饼等
可准确区分相似食品类别
动物识别
识别不同动物种类,如猫、狗等
能区分相似动物类别
内容审核
不适当内容检测
识别图像中可能包含的不适当内容