V

Vit So400m Patch14 Siglip 378.webli

由 timm 开发
基于SigLIP的视觉Transformer模型,仅包含图像编码器,采用原始注意力池化机制。
下载量 82
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉Transformer模型,专注于图像特征提取,采用SigLIP架构,适用于各种计算机视觉任务。

模型特点

SigLIP架构
采用SigLIP架构,专注于高效的图像特征提取。
原始注意力池化
使用原始注意力池化机制,提高特征提取的准确性。
大模型规模
具有400M参数的大规模模型,能够处理复杂的视觉任务。

模型能力

图像特征提取
视觉表示学习

使用案例

计算机视觉
图像分类
可用于图像分类任务,提取高质量的特征表示。
目标检测
作为特征提取器,支持目标检测任务。