H

Hiera Large 224 Hf

由 facebook 开发
Hiera是一种层次化视觉Transformer模型,兼具快速、强大且简洁的特性,在图像视频任务中超越现有技术且速度更快。
下载量 532
发布时间 : 5/12/2024
模型介绍
内容详情
替代品

模型简介

Hiera是一种层次化视觉Transformer模型,专为图像分类、特征提取或掩码图像建模设计。本特定检查点专为特征提取设计。

模型特点

层次化设计
通过层次化结构在不同网络阶段使用不同空间分辨率和特征维度,提高效率。
简洁架构
移除了传统视觉Transformer中的冗余模块,保持架构简洁高效。
高效训练
通过MAE训练教导模型学习空间偏置,而非通过复杂架构手动添加。
高性能
在多项图像视频识别任务中达到业界最优水平,同时运行速度更快。

模型能力

图像分类
特征提取
掩码图像建模

使用案例

计算机视觉
图像分类
用于标准图像分类任务
在ImageNet-1K等基准测试中表现优异
特征提取
提取图像的多层次特征表示
可用于下游视觉任务