V

Vitpose Plus Huge

由 usyd-community 开发
ViTPose++是基于视觉Transformer的人体姿态估计基础模型,在MS COCO关键点测试集上达到81.1 AP的优异表现。
下载量 14.49k
发布时间 : 1/12/2025
模型介绍
内容详情
替代品

模型简介

用于人体姿态估计的视觉Transformer模型,通过简单架构实现高性能,支持从1亿到10亿参数的可扩展规模。

模型特点

简单架构
使用标准视觉Transformer作为骨干,无需复杂领域知识设计
卓越可扩展性
参数规模可从1亿扩展到10亿,在吞吐量和性能间建立新基准
高度灵活性
支持多种注意力类型、输入分辨率及训练策略
知识可迁移性
大型模型知识可通过知识令牌轻松迁移到小型模型

模型能力

人体姿态估计
多人关键点检测
遮挡场景处理

使用案例

健康与健身
运动姿态分析
实时跟踪健身动作的关键点位置
提供姿势矫正反馈
智能监控
行为识别
通过连续姿态变化识别异常行为
数字内容创作
动画驱动
将真实人体动作映射到虚拟角色