V

Vitpose Plus Small

由 usyd-community 开发
ViTPose++是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点检测基准上达到81.1 AP的优异表现。
下载量 30.02k
发布时间 : 1/12/2025
模型介绍
内容详情
替代品

模型简介

ViTPose++是一个简单而有效的视觉Transformer基线模型,用于人体姿态估计任务。它采用普通非分层的视觉Transformer作为骨干网络,配合轻量级解码器进行姿态估计。

模型特点

简单架构
使用普通视觉Transformer作为骨干,无需复杂设计即可实现高性能
高度可扩展
模型参数可从1亿扩展到10亿,在吞吐量和性能间建立帕累托前沿
训练灵活性
支持多种注意力类型、输入分辨率、预训练和微调策略
知识可迁移
大型模型知识可通过简单知识标记迁移到小型模型

模型能力

人体姿态估计
多人关键点检测
遮挡情况下姿态估计

使用案例

健康与健身
运动姿势分析
用于健身应用分析用户运动姿势
提供准确的关键点定位,帮助纠正姿势
监控与安全
行为分析
监控场景中的人类行为分析
可识别异常行为模式
娱乐
游戏动画
为游戏角色生成逼真动作
实现自然的人物动作捕捉