V

Vitpose Base

由 usyd-community 开发
基于视觉Transformer的人体姿态估计模型,在MS COCO关键点测试集上达到81.1 AP的优异表现
下载量 761
发布时间 : 1/8/2025
模型介绍
内容详情
替代品

模型简介

ViTPose是一个用于人体姿态估计的视觉Transformer模型,通过简单而有效的架构实现高精度关键点检测。

模型特点

简洁架构
采用平面非层级式视觉Transformer骨干网络,配合轻量级解码器,结构简单高效
高度可扩展
模型参数量可从1亿扩展至10亿,在吞吐量与性能间建立新的帕累托前沿
灵活训练
支持多种注意力类型、输入分辨率、预训练与微调策略,适应多姿态任务
知识迁移
大型模型知识可通过简单的知识令牌轻松迁移至小型模型

模型能力

人体关键点检测
多人姿态估计
遮挡场景姿态分析

使用案例

行为分析
健身动作监测
实时分析用户训练姿势,提供规范性反馈
提高训练安全性及效果
安防监控
监测公共场所异常行为
提升安防系统智能化水平
数字内容创作
游戏动画
生成逼真的角色动作
增强游戏沉浸感