S

Siglip So400m Patch16 256 I18n

由 google 开发
基于SoViT主干网络、采用Sigmoid损失函数改进的多模态模型,支持零样本图像分类和图文检索
下载量 230
发布时间 : 10/21/2024
模型介绍
内容详情
替代品

模型简介

SigLIP是改进CLIP模型的视觉-语言预训练模型,通过Sigmoid损失函数优化训练过程,支持更大批次训练并在小批次场景表现更优

模型特点

Sigmoid损失函数
仅作用于图像-文本对,无需全局相似度归一化,支持更大批次训练
计算最优架构
采用SoViT-400m形状优化版本,实现计算效率最大化
多语言支持
在256分辨率多语言语料上预训练,支持国际化应用

模型能力

零样本图像分类
图文检索
多模态理解

使用案例

内容分类
动物识别
识别图片中的猫、狗等动物
示例显示能准确区分猫狗图像
媒体分析
场景理解
识别图像中的活动类型(如演奏音乐、体育运动)