vitpose-base开源人体姿态估计模型 - 精准识别姿态，测试集表现优异

首页

Vitpose Base

由 usyd-community 开发

基于视觉Transformer的人体姿态估计模型，在MS COCO关键点测试集上达到81.1 AP的优异表现

姿态估计

Transformers

英语开源协议:Apache-2.0 #人体姿态估计 #视觉Transformer #多场景适配

下载量 761

发布时间 : 1/8/2025

模型简介

ViTPose是一个用于人体姿态估计的视觉Transformer模型，通过简单而有效的架构实现高精度关键点检测。

模型特点

简洁架构

采用平面非层级式视觉Transformer骨干网络，配合轻量级解码器，结构简单高效

高度可扩展

模型参数量可从1亿扩展至10亿，在吞吐量与性能间建立新的帕累托前沿

灵活训练

支持多种注意力类型、输入分辨率、预训练与微调策略，适应多姿态任务

知识迁移

大型模型知识可通过简单的知识令牌轻松迁移至小型模型

模型能力

人体关键点检测

多人姿态估计

遮挡场景姿态分析

使用案例

行为分析

健身动作监测

实时分析用户训练姿势，提供规范性反馈

提高训练安全性及效果

安防监控

监测公共场所异常行为

提升安防系统智能化水平

数字内容创作

游戏动画

生成逼真的角色动作

增强游戏沉浸感

🚀 VitPose模型卡片

ViTPose是用于人体姿态估计的简单视觉Transformer基线模型，ViTPose+则是用于通用人体姿态估计的视觉Transformer基础模型。该模型在MS COCO关键点测试开发集上达到了81.1的平均精度（AP）。

🚀 快速开始

使用以下代码开始使用该模型：

import torch
import requests
import numpy as np

from PIL import Image

from transformers import (
    AutoProcessor,
    RTDetrForObjectDetection,
    VitPoseForPoseEstimation,
)

device = "cuda" if torch.cuda.is_available() else "cpu"

url = "http://images.cocodataset.org/val2017/000000000139.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# ------------------------------------------------------------------------
# 阶段1. 在图像中检测人体
# ------------------------------------------------------------------------

# 你可以根据自己的选择选择检测器
person_image_processor = AutoProcessor.from_pretrained("PekingU/rtdetr_r50vd_coco_o365")
person_model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd_coco_o365", device_map=device)

inputs = person_image_processor(images=image, return_tensors="pt").to(device)

with torch.no_grad():
    outputs = person_model(**inputs)

results = person_image_processor.post_process_object_detection(
    outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.3
)
result = results[0]  # 获取第一张图像的结果

# 人体标签在COCO数据集中对应索引0
person_boxes = result["boxes"][result["labels"] == 0]
person_boxes = person_boxes.cpu().numpy()

# 将边界框从VOC (x1, y1, x2, y2) 格式转换为COCO (x1, y1, w, h) 格式
person_boxes[:, 2] = person_boxes[:, 2] - person_boxes[:, 0]
person_boxes[:, 3] = person_boxes[:, 3] - person_boxes[:, 1]

# ------------------------------------------------------------------------
# 阶段2. 为每个检测到的人体检测关键点
# ------------------------------------------------------------------------

image_processor = AutoProcessor.from_pretrained("usyd-community/vitpose-base")
model = VitPoseForPoseEstimation.from_pretrained("usyd-community/vitpose-base", device_map=device)

inputs = image_processor(image, boxes=[person_boxes], return_tensors="pt").to(device)

with torch.no_grad():
    outputs = model(**inputs)

pose_results = image_processor.post_process_pose_estimation(outputs, boxes=[person_boxes], threshold=0.3)
image_pose_result = pose_results[0]  # 第一张图像的结果

for i, person_pose in enumerate(image_pose_result):
    print(f"人物 #{i}")
    for keypoint, label, score in zip(
        person_pose["keypoints"], person_pose["labels"], person_pose["scores"]
    ):
        keypoint_name = model.config.id2label[label.item()]
        x, y = keypoint
        print(f" - {keypoint_name}: x={x.item():.2f}, y={y.item():.2f}, score={score.item():.2f}")

输出：

人物 #0
 - 鼻子: x=428.25, y=170.88, score=0.98
 - 左眼: x=428.76, y=168.03, score=0.97
 - 右眼: x=428.09, y=168.15, score=0.82
 - 左耳: x=433.28, y=167.72, score=0.95
 - 右耳: x=440.77, y=166.66, score=0.88
 - 左肩: x=440.52, y=177.60, score=0.92
 - 右肩: x=444.64, y=178.11, score=0.70
 - 左肘: x=436.64, y=198.21, score=0.92
 - 右肘: x=431.42, y=201.19, score=0.76
 - 左手腕: x=430.96, y=218.39, score=0.98
 - 右手腕: x=419.95, y=213.27, score=0.85
 - 左髋: x=445.33, y=222.93, score=0.77
 - 右髋: x=451.91, y=222.52, score=0.75
 - 左膝: x=443.31, y=255.61, score=0.83
 - 右膝: x=451.42, y=255.03, score=0.84
 - 左踝: x=447.76, y=287.33, score=0.68
 - 右踝: x=456.78, y=286.08, score=0.83
人物 #1
 - 鼻子: x=398.23, y=181.74, score=0.89
 - 左眼: x=398.31, y=179.77, score=0.84
 - 右眼: x=395.99, y=179.46, score=0.91
 - 右耳: x=388.95, y=180.24, score=0.86
 - 左肩: x=397.35, y=194.22, score=0.73
 - 右肩: x=384.50, y=190.86, score=0.58

✨ 主要特性

性能出色：在MS COCO关键点检测基准测试中，基础的ViTPose模型优于代表性方法，最大的模型在MS COCO测试开发集上达到了80.9的AP，创造了新的最优性能。
结构简单：采用简单且非分层的视觉Transformer作为骨干网络来提取给定人物实例的特征，并使用轻量级解码器进行姿态估计。
可扩展性强：利用Transformer可扩展的模型容量和高并行性，模型参数可以从1亿扩展到10亿，在吞吐量和性能之间建立了新的帕累托前沿。
灵活性高：在注意力类型、输入分辨率、预训练和微调策略以及处理多个姿态任务方面都非常灵活。
知识可迁移：通过简单的知识令牌，大型ViTPose模型的知识可以轻松迁移到小型模型。

📦 安装指南

文档未提供安装步骤，故跳过该章节。

💻 使用示例

基础用法

import torch
import requests
import numpy as np

from PIL import Image

from transformers import (
    AutoProcessor,
    RTDetrForObjectDetection,
    VitPoseForPoseEstimation,
)

device = "cuda" if torch.cuda.is_available() else "cpu"

url = "http://images.cocodataset.org/val2017/000000000139.jpg"
image = Image.open(requests.get(url, stream=True).raw)

# ------------------------------------------------------------------------
# 阶段1. 在图像中检测人体
# ------------------------------------------------------------------------

# 你可以根据自己的选择选择检测器
person_image_processor = AutoProcessor.from_pretrained("PekingU/rtdetr_r50vd_coco_o365")
person_model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd_coco_o365", device_map=device)

inputs = person_image_processor(images=image, return_tensors="pt").to(device)

with torch.no_grad():
    outputs = person_model(**inputs)

results = person_image_processor.post_process_object_detection(
    outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.3
)
result = results[0]  # 获取第一张图像的结果

# 人体标签在COCO数据集中对应索引0
person_boxes = result["boxes"][result["labels"] == 0]
person_boxes = person_boxes.cpu().numpy()

# 将边界框从VOC (x1, y1, x2, y2) 格式转换为COCO (x1, y1, w, h) 格式
person_boxes[:, 2] = person_boxes[:, 2] - person_boxes[:, 0]
person_boxes[:, 3] = person_boxes[:, 3] - person_boxes[:, 1]

# ------------------------------------------------------------------------
# 阶段2. 为每个检测到的人体检测关键点
# ------------------------------------------------------------------------

image_processor = AutoProcessor.from_pretrained("usyd-community/vitpose-base")
model = VitPoseForPoseEstimation.from_pretrained("usyd-community/vitpose-base", device_map=device)

inputs = image_processor(image, boxes=[person_boxes], return_tensors="pt").to(device)

with torch.no_grad():
    outputs = model(**inputs)

pose_results = image_processor.post_process_pose_estimation(outputs, boxes=[person_boxes], threshold=0.3)
image_pose_result = pose_results[0]  # 第一张图像的结果

for i, person_pose in enumerate(image_pose_result):
    print(f"人物 #{i}")
    for keypoint, label, score in zip(
        person_pose["keypoints"], person_pose["labels"], person_pose["scores"]
    ):
        keypoint_name = model.config.id2label[label.item()]
        x, y = keypoint
        print(f" - {keypoint_name}: x={x.item():.2f}, y={y.item():.2f}, score={score.item():.2f}")

高级用法

文档未提供高级用法示例，故跳过该部分。

📚 详细文档

模型详情

尽管在设计中没有考虑特定的领域知识，但简单的视觉Transformer在视觉识别任务中已经显示出了出色的性能。然而，很少有人努力揭示这种简单结构在姿态估计任务中的潜力。在本文中，我们通过一个名为ViTPose的简单基线模型，从多个方面展示了简单视觉Transformer在姿态估计方面惊人的良好能力，即模型结构的简单性、模型大小的可扩展性、训练范式的灵活性以及模型之间知识的可迁移性。具体来说，ViTPose采用简单且非分层的视觉Transformer作为骨干网络，为给定的人物实例提取特征，并使用轻量级解码器进行姿态估计。通过利用Transformer可扩展的模型容量和高并行性，它可以将参数从1亿扩展到10亿，在吞吐量和性能之间建立了新的帕累托前沿。此外，ViTPose在注意力类型、输入分辨率、预训练和微调策略以及处理多个姿态任务方面都非常灵活。我们还通过实验证明，大型ViTPose模型的知识可以通过简单的知识令牌轻松迁移到小型模型。实验结果表明，我们的基础ViTPose模型在具有挑战性的MS COCO关键点检测基准测试中优于代表性方法，而最大的模型则创造了新的最优性能，即在MS COCO测试开发集上达到了80.9的AP。代码和模型可在GitHub仓库获取。

模型描述

这是一个已发布到Hugging Face Hub的🤗 transformers模型的卡片，该模型卡片是自动生成的。

属性	详情
开发者	Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
资助方	ARC FL - 170100117和IH - 180100002
许可证	Apache - 2.0
移植到🤗 Transformers的人员	Sangbum Choi和Niels Rogge

模型来源

原始仓库：https://github.com/ViTAE-Transformer/ViTPose
论文：https://arxiv.org/pdf/2204.12484
演示：https://huggingface.co/spaces?sort=trending&search=vitpose

用途

由ViTAE - Transformer团队开发的ViTPose模型主要用于姿态估计任务，以下是该模型的一些直接应用：

人体姿态估计：该模型可用于估计图像或视频中人体的姿态，包括识别头部、肩部、肘部、手腕、臀部、膝盖和脚踝等关键身体关节的位置。
动作识别：通过分析一段时间内的姿态，该模型可以帮助识别各种人体动作和活动。
监控：在安全和监控应用中，ViTPose可用于监控和分析公共场所或私人场所中的人体行为。
健康与健身：该模型可用于健身应用程序，以跟踪和分析运动姿态，提供关于姿势和技巧的反馈。
游戏和动画：ViTPose可以集成到游戏和动画系统中，以创建更逼真的角色动作和交互。

偏差、风险和局限性

在本文中，我们提出了一个简单而有效的用于姿态估计的视觉Transformer基线模型，即ViTPose。尽管在结构上没有精心设计，但ViTPose在MS COCO数据集上取得了最优性能。然而，ViTPose的潜力尚未通过更先进的技术（如复杂的解码器或FPN结构）得到充分挖掘，这些技术可能会进一步提高其性能。此外，尽管ViTPose展示了诸如简单性、可扩展性、灵活性和可迁移性等令人兴奋的特性，但还可以进行更多的研究工作，例如探索基于提示的微调以进一步展示ViTPose的灵活性。另外，我们相信ViTPose也可以应用于其他姿态估计数据集，例如动物姿态估计和面部关键点检测。我们将这些作为未来的工作。

评估

OCHuman验证集和测试集：为了评估人体姿态估计模型在严重遮挡的人体实例上的性能，我们在OCHuman验证集和测试集上使用真实边界框对ViTPose变体和代表性模型进行了测试。我们没有采用额外的人体检测器，因为OCHuman数据集中并非所有人体实例都有标注，人体检测器会产生大量的“误报”边界框，无法反映姿态估计模型的真实能力。具体来说，使用了对应于MS COCO数据集的ViTPose解码器头，因为MS COCO和OCHuman数据集中的关键点定义是相同的。
MPII验证集：我们在MPII验证集上使用真实边界框评估了ViTPose和代表性模型的性能。遵循MPII的默认设置，我们使用PCKh作为性能评估指标。

评估结果

模型架构和目标

模型架构

硬件

模型基于mmpose代码库在8个A100 GPU上进行训练。

🔧 技术细节

训练数据

我们使用MS COCO、AI Challenger、MPII和CrowdPose数据集进行训练和评估。OCHuman数据集仅用于评估阶段，以衡量模型在处理遮挡人体时的性能。

MS COCO数据集：包含118K张图像和150K个人体实例，每个实例最多有17个关键点标注，用于训练。该数据集遵循CC - BY - 4.0许可证。
MPII数据集：遵循BSD许可证，包含15K张图像和22K个人体实例，用于训练。该数据集中每个实例最多标注16个人体关键点。
AI Challenger数据集：规模更大，包含超过200K张训练图像和350个人体实例，每个实例最多标注14个关键点。
OCHuman数据集：包含严重遮挡的人体实例，仅用作验证集和测试集，包括4K张图像和8K个实例。

训练超参数

训练机制：

速度、大小和时间

📄 许可证

该模型使用Apache - 2.0许可证。

📖 引用

@article{xu2022vitposesimplevisiontransformer,
  title={ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation},
  author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
  year={2022},
  eprint={2204.12484},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2204.12484}
}