V

Vitpose Base Simple

由 danelcsb 开发
ViTPose是基于普通视觉Transformer的人体姿态估计基线模型,通过简洁架构实现高性能关键点检测
下载量 20
发布时间 : 11/20/2024
模型介绍
内容详情
替代品

模型简介

该模型采用非层级化视觉Transformer作为骨干网络,配备轻量级解码器进行姿态估计,在MS COCO数据集上达到81.1 AP的优异表现

模型特点

架构简洁性
仅使用普通视觉Transformer作为骨干网络,无需复杂设计即可实现高性能姿态估计
规模可扩展
模型参数量可从1亿灵活扩展至10亿,在吞吐量与性能间建立帕累托前沿
训练灵活性
支持多种注意力类型、输入分辨率、预训练策略及多任务处理方案
知识可迁移
大型模型知识可通过简单知识令牌迁移至小型模型

模型能力

人体关键点检测
多尺度姿态估计
遮挡场景处理
实时姿态分析

使用案例

健康健身
运动姿势矫正
实时追踪健身动作关键点,提供规范化反馈
安防监控
行为模式分析
检测公共场所人体姿态异常行为
游戏动画
动作捕捉
生成逼真角色动画