H

Hiera Base Plus 224 Hf

由 facebook 开发
Hiera是一种分层式视觉Transformer模型,兼具快速、强大且简洁的特性,在广泛图像视频任务中超越现有技术水平同时显著提升运行速度。
下载量 15
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

Hiera是一种高效的层次化视觉Transformer模型,专为图像分类、特征提取和掩码图像建模设计。通过简化冗余模块并采用MAE训练,实现了在多项图像视频识别任务中的高性能表现。

模型特点

高效层次化设计
通过分层结构在不同阶段调整空间分辨率和特征数量,显著提升运行效率。
简化架构
移除了现有Transformer中的冗余模块,保持简洁架构的同时提升准确率。
MAE训练
采用掩码自编码(MAE)训练方法,教导模型学习空间偏置,而非通过架构手动添加。
高性能
在多项图像视频识别任务中超越现有技术水平,同时保持快速推理速度。

模型能力

图像分类
特征提取
掩码图像建模

使用案例

计算机视觉
图像分类
对输入图像进行分类,识别图像中的主要对象或场景。
在ImageNet-1K等基准测试中表现优异
特征提取
提取图像的多层次特征表示,可用于下游视觉任务。
可提取不同阶段的特征图,支持多种视觉应用