V

Vitpose Plus Base

由 usyd-community 开发
ViTPose是一个基于视觉Transformer的人体姿态估计模型,采用简洁设计在MS COCO关键点检测基准上取得81.1 AP的优异表现。
下载量 22.26k
发布时间 : 1/8/2025
模型介绍
内容详情
替代品

模型简介

该模型通过朴素视觉Transformer架构实现高效人体姿态估计,支持从100M到1B参数规模的灵活扩展,具有高度并行性和知识迁移能力。

模型特点

简洁架构设计
采用非层级化视觉Transformer骨干网络,无需复杂领域知识设计即实现高性能
灵活可扩展
参数规模可从100M扩展至1B,在吞吐量与性能间建立帕累托前沿
多任务适应性
支持注意力类型、输入分辨率、预训练策略的灵活调整,可处理多姿态任务
知识可迁移性
大型模型知识可通过知识令牌轻松迁移至小型模型

模型能力

人体姿态估计
多人关键点检测
遮挡场景分析

使用案例

健康健身
运动姿势分析
实时追踪健身动作关键点
提供动作规范性反馈
安防监控
行为监测
公共场所异常行为识别
数字娱乐
动作捕捉
游戏角色动作生成