V

Vit Base Patch16 Siglip 384.webli

由 timm 开发
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
下载量 64
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

这是一个基于SigLIP架构的视觉Transformer模型,专门用于图像特征提取。模型采用384x384输入分辨率,使用16x16的patch大小,适用于各种计算机视觉任务。

模型特点

SigLIP架构
采用SigLIP架构的视觉Transformer,专注于图像编码任务
原始注意力池化
使用原始注意力池化机制,保留更多图像特征信息
高分辨率处理
支持384x384的高分辨率输入,适合精细图像分析

模型能力

图像特征提取
视觉表示学习
图像分类
图像检索

使用案例

计算机视觉
图像分类
可用于图像分类任务的基础特征提取
图像检索
提取的图像特征可用于相似图像检索
视觉表示学习
作为预训练模型用于下游视觉任务