V

Vit B 16 SigLIP2 256

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
下载量 10.32k
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专门用于零样本图像分类任务。它采用了Sigmoid损失函数进行语言图像预训练,具有改进的语义理解和定位能力。

模型特点

Sigmoid损失函数
采用Sigmoid损失函数而非传统的Softmax,提高了语言图像预训练的效果
改进的语义理解
相比前代模型,具有更好的语义理解和定位能力
密集特征提取
能够提取图像的密集特征,支持更精细的图像理解

模型能力

零样本图像分类
图像-文本对比学习
多语言图像理解

使用案例

图像理解
食品识别
识别图像中的食品类型,如甜甜圈、贝涅饼等
能准确分类常见食品类型
动物识别
识别图像中的动物类别,如猫、狗等
对常见动物有较高的识别准确率
多语言应用
多语言图像标注
使用不同语言文本进行图像分类
支持多语言标签输入