V

Vit SO400M 14 SigLIP2 378

由 timm 开发
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
下载量 1,596
发布时间 : 2/21/2025

模型简介

这是一个对比式图文模型,采用Sigmoid损失函数进行预训练,具有改进的语义理解和定位能力,适用于多语言视觉语言任务。

模型特点

改进的语义理解
采用SigLIP 2架构,相比前代模型具有更好的语义理解能力
多语言支持
模型支持多语言视觉语言任务
零样本分类能力
无需微调即可直接应用于新的图像分类任务
Sigmoid损失函数
使用创新的Sigmoid损失函数进行预训练,提高模型性能

模型能力

零样本图像分类
多语言视觉语言理解
图像-文本匹配
语义特征提取

使用案例

图像理解
零样本图像分类
无需训练即可对图像进行分类
可准确识别图像中的物体类别
多模态应用
图文匹配
判断图像与文本描述的匹配程度
AIbase
智启未来,您的人工智能解决方案智库
简体中文