V

Vit Base Patch16 Siglip 256.webli I18n

由 timm 开发
基于SigLIP的ViT-B-16视觉Transformer模型,仅包含图像编码器,采用原始注意力池化
下载量 16
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉Transformer模型,专门用于图像特征提取,采用了SigLIP(Sigmoid Loss for Language-Image Pre-training)方法进行训练,适用于多语言场景下的视觉任务。

模型特点

SigLIP训练方法
采用Sigmoid Loss进行语言-图像预训练,提高了模型在多模态任务中的表现
原始注意力池化
保留了原始的注意力机制进行特征池化,不引入额外的池化层
多语言支持
模型训练时考虑了多语言场景,适用于国际化应用
高效图像编码
基于ViT架构,能够高效提取图像特征

模型能力

图像特征提取
视觉表示学习
多模态任务支持

使用案例

计算机视觉
图像分类
可作为图像分类任务的基础特征提取器
视觉搜索
用于构建视觉搜索引擎的特征提取组件
多模态应用
图文匹配
与文本模型配合实现图文匹配任务