V

Vitpose Plus Large

由 usyd-community 开发
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
下载量 1,731
发布时间 : 1/12/2025
模型介绍
内容详情
替代品

模型简介

ViTPose++是一个简单而有效的视觉Transformer基线模型,用于人体姿态估计任务。它采用非分层的视觉Transformer作为骨干网络,结合轻量级解码器进行姿态估计,具有模型简单性、可扩展性和灵活性等特点。

模型特点

简单而有效的架构
使用普通的视觉Transformer作为骨干网络,无需复杂的领域特定设计即可实现高性能
高度可扩展
模型参数可以从100M扩展到1B,在性能和吞吐量之间建立新的帕累托前沿
训练灵活性
支持多种注意力类型、输入分辨率、预训练和微调策略,可处理多个姿态任务
知识可迁移性
大型模型的知识可以通过简单的知识令牌轻松迁移到小型模型中

模型能力

人体姿态估计
关键点检测
多人姿态识别
遮挡人体姿态估计

使用案例

计算机视觉
人体姿态分析
检测图像或视频中的人体关键点位置
在MS COCO测试集上达到80.9 AP
动作识别
通过分析连续帧中的姿态变化识别人类动作
健康与健身
运动姿态分析
跟踪和分析健身运动中的姿势和技巧