S

Sapiens Pose 1b Torchscript

由 facebook 开发
Sapiens是基于3亿张1024x1024分辨率人体图像预训练的视觉Transformer模型,专为高精度姿态估计任务设计。
下载量 1,245
发布时间 : 9/9/2024

模型简介

该模型用于单张图像上的308个关键点估计,覆盖身体、面部、手部和足部,支持1K高分辨率推理,具有卓越的泛化能力。

模型特点

高分辨率支持
原生支持1K高分辨率推理,图像输入尺寸为1024x768。
多部位关键点检测
可同时检测身体、面部、手部和足部共308个关键点。
强大泛化能力
即使在标注数据稀缺或完全合成的情况下,也能展现出对真实数据的卓越泛化能力。
高效计算
计算量为4.647万亿次浮点运算,平衡了精度与效率。

模型能力

人体姿态估计
面部关键点检测
手部关键点检测
足部关键点检测
高分辨率图像处理

使用案例

运动分析
运动员动作分析
用于分析运动员的动作姿态,帮助改进技术动作。
可精确捕捉全身308个关键点
人机交互
手势识别
用于识别复杂的手势动作,实现自然的人机交互。
高精度手部关键点检测
虚拟现实
虚拟形象驱动
用于实时驱动虚拟形象,实现逼真的动作捕捉。
全身姿态的实时估计
AIbase
智启未来,您的人工智能解决方案智库
简体中文