V

Vit Base R50 S16 224.orig In21k

由 timm 开发
结合ResNet与Vision Transformer的混合图像分类模型,基于ImageNet-21k预训练,适用于特征提取和微调场景。
下载量 876
发布时间 : 12/23/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个结合了ResNet与Vision Transformer(ViT)的混合图像分类模型,由论文作者在JAX框架下基于ImageNet-21k预训练,后移植到PyTorch。不含分类头,适用于特征提取和微调。

模型特点

混合架构
结合ResNet与Vision Transformer的优势,提升图像特征提取能力。
预训练模型
基于ImageNet-21k大规模数据集预训练,具有强大的特征提取能力。
灵活应用
不含分类头,适用于特征提取和微调场景。

模型能力

图像分类
图像特征提取

使用案例

计算机视觉
图像分类
使用该模型进行图像分类任务,支持多种类别识别。
特征提取
提取图像的高层特征,用于后续任务如目标检测、图像分割等。