V

Vitpose Base Simple

由 usyd-community 开发
ViTPose是基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的精度,具有模型简洁、规模可扩展、训练灵活等优势
下载量 51.40k
发布时间 : 1/8/2025
模型介绍
内容详情
替代品

模型简介

用于人体姿态估计的视觉Transformer基线模型,可检测图像/视频中的人体关键点

模型特点

模型简洁性
采用朴素视觉Transformer结构,无需复杂领域知识设计
规模可扩展
参数量可从1亿灵活扩展至10亿,建立吞吐量与性能的帕累托前沿
训练灵活性
支持多种注意力类型、输入分辨率、预训练/微调策略及多任务处理
知识迁移性
大型模型知识可通过简单知识令牌有效迁移至小型模型

模型能力

人体关键点检测
多人体姿态估计
遮挡场景处理

使用案例

健康健身
健身动作矫正
实时监测用户健身姿势准确性
提供17个关键点坐标及置信度评分
安防监控
异常行为检测
分析公共场所人体姿态特征
可识别跌倒、攀爬等异常动作
游戏动画
动作捕捉
将真人动作映射至虚拟角色
生成流畅自然的角色动画