V

Vit Gopt 16 SigLIP2 256

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
下载量 43.20k
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个对比式图像-文本模型,主要用于零样本图像分类。它已从Big Vision的原始JAX检查点转换为适用于OpenCLIP的版本。

模型特点

SigLIP 2架构
采用改进的SigLIP 2架构,具有更好的语义理解、定位和密集特征提取能力。
多语言支持
支持多语言文本输入(基于论文推断)。
零样本分类
无需微调即可执行图像分类任务。

模型能力

零样本图像分类
图像-文本对比学习
多语言理解

使用案例

图像理解
零样本图像分类
无需特定训练即可对图像进行分类
示例中显示能正确识别贝涅饼等食物