V

Vit Base Patch16 Siglip 224.webli

由 timm 开发
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
下载量 330
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于SigLIP(Sigmoid Loss for Language-Image Pre-training)的视觉Transformer架构,专门用于图像特征提取任务。它采用标准的ViT-B-16结构,输入分辨率为224x224像素。

模型特点

SigLIP预训练
使用Sigmoid损失函数进行语言-图像预训练,优化了图像表示学习
纯图像编码器
仅包含图像编码部分,专注于视觉特征提取任务
原始注意力池化
保持原始注意力机制进行特征池化,不引入额外参数
标准ViT架构
基于广泛验证的ViT-B/16结构,16x16的patch大小,224x224输入分辨率

模型能力

图像特征提取
视觉表示学习
图像分类
图像检索

使用案例

计算机视觉
图像分类
作为特征提取器用于图像分类任务
图像检索
提取图像特征用于相似性搜索和检索系统
多模态系统
作为视觉编码器用于多模态(图像-文本)系统