V

Vit B 16 SigLIP2 512

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
下载量 1,442
发布时间 : 2/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个对比图像-文本模型,专为零样本图像分类设计,能够理解图像内容并匹配文本描述

模型特点

Sigmoid损失函数
采用创新的Sigmoid损失进行语言图像预训练,提高模型性能
多语言支持
支持多语言文本理解,增强跨语言应用能力
改进的语义理解
相比前代模型,在语义理解和定位能力上有显著提升

模型能力

零样本图像分类
图像-文本匹配
多模态特征提取

使用案例

图像理解
零样本图像分类
无需特定训练即可对图像进行分类
示例中显示能准确识别贝奈特饼等食物
多模态应用
图像搜索
通过文本描述搜索相关图像