数据集:
- imagenet-1k
语言:
- en
库名称: transformers
许可证: cc-by-nc-4.0
Hiera模型(Tiny版,基于IN1K微调)
Hiera是一种_分层式_视觉Transformer模型,兼具快速、强大且_简洁_的特性。该模型在论文《Hiera: 一个没有花哨设计的层次化视觉Transformer》中提出,在广泛图像视频任务中超越现有技术水平_同时显著提升运行速度_。
工作原理

传统视觉Transformer(如ViT)在全网络中使用相同的空间分辨率和特征数量。但这种设计效率低下:早期层不需要过多特征,深层则不需要过高空间分辨率。先前层次化模型(如ResNet)通过起始减少特征数、末端降低分辨率来解决这个问题。
现有领域专用视觉Transformer(如Swin或MViT)虽采用层次化设计,但为在ImageNet-1K全监督训练中追求最优结果,这些模型通过添加专用模块来弥补ViT缺乏的空间偏置,导致结构日趋复杂。尽管这些改进能产生FLOPs指标亮眼的模型,但底层增加的复杂度反而使模型整体_变慢_。
我们证明这些冗余设计大多_非必要_。不同于通过架构改动手动添加空间偏置,我们选择直接_教导_模型学习这些偏置。通过MAE训练,我们可以简化或移除现有Transformer中_所有_冗余模块,同时_提升准确率_。最终成果Hiera成为在多项图像视频识别任务中超越现有技术水平的极致高效简洁架构。
使用场景与限制
Hiera可用于图像分类、特征提取或掩码图像建模。本特定检查点专为特征提取设计。
使用方法
from transformers import AutoImageProcessor, HieraModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-base-plus-224-hf")
model = HieraModel.from_pretrained("facebook/hiera-base-plus-224-hf")
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
也可通过HieraBackbone
提取不同阶段的特征图,加载模型时设置out_features
参数。以下示例展示如何提取各阶段特征图:
from transformers import AutoImageProcessor, HieraBackbone
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-base-plus-224-hf")
model = HieraBackbone.from_pretrained("facebook/hiera-base-plus-224-hf", out_features=['stage1', 'stage2', 'stage3', 'stage4'])
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
feature_maps = outputs.feature_maps
BibTeX引用信息
若使用Hiera或本代码,请引用:
@article{ryali2023hiera,
title={Hiera: 一个没有花哨设计的层次化视觉Transformer},
author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
journal={ICML},
year={2023}
}