S

Samvit Large Patch16.sa1b

由 timm 开发
Segment-Anything视觉Transformer(SAM ViT)图像特征模型,仅包含特征提取和微调功能,未包含分割头。
下载量 124
发布时间 : 5/18/2023
模型介绍
内容详情
替代品

模型简介

该模型是基于SA-1B数据集预训练的视觉Transformer,主要用于图像特征提取和微调任务,权重初始化采用MAE预训练权重。

模型特点

大尺寸分块处理
采用16x16的大尺寸分块策略处理1024x1024分辨率图像
MAE预训练初始化
权重初始化采用MAE(Masked Autoencoder)预训练策略
高计算效率
模型计算量为1493.9 GMACs,激活值2553.8百万,适合大规模图像处理

模型能力

图像特征提取
图像分类
图像嵌入表示

使用案例

计算机视觉
图像分类
可用于图像分类任务,提取图像特征后进行分类
图像检索
通过提取图像嵌入特征实现相似图像检索