开源Sapiens-pose-1b-torchscript模型 - 高精度人体姿态估计好帮手

首页

Sapiens Pose 1b Torchscript

由 facebook 开发

Sapiens是基于3亿张1024x1024分辨率人体图像预训练的视觉Transformer模型，专为高精度姿态估计任务设计。

姿态估计英语#高分辨率姿态估计 #全身多部位关键点 #十亿参数大模型

下载量 1,245

发布时间 : 9/9/2024

模型简介

该模型用于单张图像上的308个关键点估计，覆盖身体、面部、手部和足部，支持1K高分辨率推理，具有卓越的泛化能力。

模型特点

高分辨率支持

原生支持1K高分辨率推理，图像输入尺寸为1024x768。

多部位关键点检测

可同时检测身体、面部、手部和足部共308个关键点。

强大泛化能力

即使在标注数据稀缺或完全合成的情况下，也能展现出对真实数据的卓越泛化能力。

高效计算

计算量为4.647万亿次浮点运算，平衡了精度与效率。

模型能力

人体姿态估计

面部关键点检测

手部关键点检测

足部关键点检测

高分辨率图像处理

使用案例

运动分析

运动员动作分析

用于分析运动员的动作姿态，帮助改进技术动作。

可精确捕捉全身308个关键点

人机交互

手势识别

用于识别复杂的手势动作，实现自然的人机交互。

高精度手部关键点检测

虚拟现实

虚拟形象驱动

用于实时驱动虚拟形象，实现逼真的动作捕捉。

全身姿态的实时估计

🚀 Pose-Sapiens-1B-Torchscript

Pose-Sapiens-1B-Torchscript是一个关键点检测模型，基于视觉变换器架构，在3亿张1024x1024分辨率的人类图像上进行预训练。该模型能够泛化到自然场景中，即使在标记数据稀缺或完全合成的情况下，也能表现出出色的性能。

✨ 主要特性

Sapiens系列模型在3亿张1024x1024分辨率的人类图像上进行预训练，微调后可很好地泛化到自然场景。
Sapiens-1B原生支持1K高分辨率推理，对自然数据有出色的泛化能力。

📚 详细文档

模型详情

Sapiens是一系列视觉变换器模型，在3亿张分辨率为1024 x 1024的人类图像上进行了预训练。这些预训练模型在针对以人类为中心的视觉任务进行微调后，能够很好地泛化到自然场景中。 Sapiens-1B原生支持1K高分辨率推理。最终得到的模型即使在标记数据稀缺或完全合成的情况下，对自然数据也表现出显著的泛化能力。

属性	详情
开发者	Meta
模型类型	视觉变换器
许可证	知识共享署名-非商业性使用 4.0 国际许可协议
任务	姿态估计
格式	torchscript
文件	sapiens_1b_goliath_best_goliath_AP_639_torchscript.pt2

模型卡片

属性	详情
图像尺寸	1024 x 768 (高 x 宽)
参数数量	11.69亿
浮点运算次数	4.647 TFLOPs
补丁尺寸	16 x 16
嵌入维度	1536
层数	40
头数	24
前馈通道数	6144