S

Sapiens Pose 0.3b Torchscript

由 facebook 开发
Sapiens是基于3亿张高分辨率人类图像预训练的视觉Transformer模型,专为姿态估计任务设计,支持308个关键点检测。
下载量 55
发布时间 : 9/13/2024
模型介绍
内容详情
替代品

模型简介

该模型用于单张图像的全身关键点(身体+面部+手部+足部)估计,在1024x768分辨率下表现出色。

模型特点

高分辨率支持
原生支持1024x768高分辨率输入,适合精细姿态分析
多部位关键点检测
同时检测身体、面部、手部和足部共308个关键点
强泛化能力
通过3亿张图像预训练,在真实场景中表现优异
高效推理
1.242万亿次浮点运算的计算量,平衡精度与效率

模型能力

全身姿态估计
多部位关键点检测
高分辨率图像处理

使用案例

动作分析
运动姿态分析
用于运动员动作捕捉和姿势纠正
可精确识别308个关键点
人机交互
手势识别
识别复杂手部动作
包含手部关键点检测