V

Vit So400m Patch14 Siglip 224.webli

由 timm 开发
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
下载量 123
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

这是一个基于SigLIP架构的视觉Transformer模型,专门用于图像特征提取任务。模型采用14x14的patch大小和224x224的输入分辨率。

模型特点

SigLIP注意力池化
采用SigLIP架构特有的注意力池化机制,优化图像特征提取效果
大模型规模
400M参数的较大规模视觉模型,能够捕捉更丰富的图像特征
高分辨率处理
支持224x224输入分辨率,适合处理细节丰富的图像

模型能力

图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
可作为图像分类任务的基础特征提取器
视觉搜索
用于构建视觉搜索引擎的特征提取组件