V

Vit Large Patch16 Siglip Gap 384.webli

由 timm 开发
基于SigLIP的视觉Transformer模型,采用全局平均池化,适用于图像特征提取任务。
下载量 13
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉Transformer架构,专门用于图像特征提取。它采用了SigLIP(Sigmoid Loss for Language Image Pre-training)方法进行预训练,并使用全局平均池化(GAP)来提取图像特征。

模型特点

SigLIP预训练
使用Sigmoid Loss进行语言图像预训练,提高了模型的特征提取能力
全局平均池化
采用全局平均池化(GAP)策略提取图像特征,简化了特征提取过程
大尺寸输入
支持384x384像素的大尺寸图像输入,适合高分辨率图像处理

模型能力

图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
可用于图像分类任务的特征提取
图像检索
提取图像特征用于相似图像检索