V

Vit Hybrid Base Bit 384

由 google 开发
混合视觉变换器(ViT)模型结合了卷积网络和Transformer架构,用于图像分类任务,在ImageNet上表现出色。
下载量 992.28k
发布时间 : 12/6/2022
模型介绍
内容详情
替代品

模型简介

该模型是视觉变换器(ViT)的混合版本,通过利用卷积主干网络(BiT)的特征作为Transformer的初始词元,实现了高效的图像分类。

模型特点

结合卷积与Transformer优势
通过卷积主干网络提取特征,再输入Transformer编码器,兼具局部特征提取和全局关系建模能力。
高效训练
相比纯卷积网络,训练所需计算资源显著减少,同时保持优异性能。
高分辨率支持
支持384x384分辨率输入,在高分辨率下微调可获得最佳结果。

模型能力

图像分类
特征提取

使用案例

计算机视觉
ImageNet图像分类
将图像分类为1000个ImageNet类别之一。
在ImageNet基准测试中表现优异。