Sapiens-2B开源视觉模型 - 支持1K分辨率人体深度估计，真实场景泛化佳

Sapiens Depth 2b Bfloat16

由 facebook 开发

Sapiens-2B是基于3亿张高分辨率人体图像预训练的视觉Transformer模型，专门针对人体深度估计任务优化，支持1K分辨率推理并具有优秀的真实场景泛化能力。

下载量 17

发布时间 : 9/10/2024

模型简介

该模型是Meta开发的21亿参数视觉Transformer，用于人体图像的相对深度估计任务，在合成数据和真实数据场景下均表现优异。

高分辨率支持

原生支持1024×1024分辨率输入，最高可处理1024×768尺寸的人体图像

合成数据泛化

即使在完全使用合成数据训练的情况下，仍能保持对真实场景数据的优秀泛化能力

高效计算

采用bfloat16数据格式优化，计算量达8.709万亿次浮点运算

人体深度估计

高分辨率图像处理

合成数据到真实场景的迁移学习

虚拟现实

3D人体建模

从单张图像生成人体深度信息用于3D建模

可生成精确的相对深度图

影视特效

深度感知特效

为影视后期制作提供人体深度信息

支持更真实的景深效果和虚拟场景融合

属性	详情
开发者	Meta
模型类型	视觉变换器
许可证	知识共享署名-非商业性使用 4.0 国际许可协议
任务	深度估计
格式	bfloat16
文件	sapiens_2b_render_people_epoch_25_bfloat16.pt2