Hiera-huge-224-hf开源视觉模型 - 高效处理图像视频，运行速度超快！

首页

Hiera Huge 224 Hf

由 facebook 开发

Hiera是一种高效的分层视觉Transformer模型，在图像和视频任务中表现优异且运行速度快

图像分类

Transformers

英语#分层视觉Transformer #高效特征提取 #图像分类优化

下载量 41

发布时间 : 5/12/2024

模型简介

Hiera是一种分层的视觉Transformer模型，设计简洁高效，通过MAE训练方法简化了传统视觉Transformer的冗余模块，在多项图像视频识别任务中超越现有技术

模型特点

分层设计

采用分层架构，早期层减少特征数量，深层网络降低空间分辨率，提高效率

简洁架构

通过MAE训练方法简化或移除了传统Transformer中的冗余模块，保持高效

高性能

在多项图像和视频识别任务中超越现有技术，同时运行速度显著提升

模型能力

图像分类

特征提取

掩码图像建模

使用案例

计算机视觉

图像分类

对图像内容进行分类识别

在ImageNet-1K等基准测试中表现优异

特征提取

从图像中提取多层次的特征表示

可用于下游视觉任务的迁移学习

🚀 Hiera模型（Tiny，在IN1K上微调）

Hiera 是一种分层视觉变换器，它快速、强大，最重要的是简单。该模型在论文 Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles 中被提出，在众多图像和视频任务中超越了当前的先进水平，同时速度更快。

✨ 主要特性

工作原理

Hiera架构图

像 ViT 这样的视觉变换器在整个网络中使用相同的空间分辨率和特征数量。但这是低效的：早期层不需要那么多特征，而后期层不需要那么高的空间分辨率。像 ResNet 这样的早期分层模型通过在开始时使用较少的特征和在结尾时使用较低的空间分辨率来解决这个问题。

已经有一些采用这种分层设计的特定领域视觉变换器被提出，如 Swin 或 MViT。但在 ImageNet - 1K 上使用全监督训练追求最先进结果的过程中，这些模型变得越来越复杂，因为它们添加了专门的模块来弥补 ViT 缺乏的空间偏差。虽然这些更改产生了具有吸引人的浮点运算次数的有效模型，但在底层，增加的复杂性使这些模型总体上更慢。

我们表明，很多这种复杂性实际上是 不必要的。我们没有通过架构更改手动添加空间基础，而是选择教导模型这些偏差。通过使用 MAE 进行训练，我们可以简化或移除现有变换器中所有这些庞大的模块，并在此过程中 提高准确性。结果就是 Hiera，这是一种极其高效且简单的架构，在多个图像和视频识别任务中超越了当前的先进水平。

预期用途与限制

Hiera 可用于图像分类、特征提取或掩码图像建模。此特定检查点旨在用于 特征提取。

📦 安装指南

文档未提及安装步骤，若有需要请参考 transformers 库的官方安装说明。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, HieraModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-huge-224-hf")
model = HieraModel.from_pretrained("facebook/hiera-huge-224-hf")

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高级用法

你还可以使用 HieraBackbone 并在加载模型时设置 out_features 从模型的不同阶段提取特征图。以下是如何从每个阶段提取特征图的示例：

from transformers import AutoImageProcessor, HieraBackbone
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-huge-224-hf")
# `out_features` 应该是 ['stem', 'stage1', 'stage2', 'stage3', 'stage4'] 的子集
# 这会引入新的 LayerNorm 层，可能需要在下游任务上进行训练
model = HieraBackbone.from_pretrained("facebook/hiera-huge-224-hf", out_features=['stage1', 'stage2', 'stage3', 'stage4'])

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
feature_maps = outputs.feature_maps

📚 详细文档

BibTeX引用和引用信息

如果你在工作中使用了 Hiera 或此代码，请引用：

@article{ryali2023hiera,
  title={Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles},
  author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
  journal={ICML},
  year={2023}
}