S

Sapiens Depth 2b Bfloat16

由 facebook 开发
Sapiens-2B是基于3亿张高分辨率人体图像预训练的视觉Transformer模型,专门针对人体深度估计任务优化,支持1K分辨率推理并具有优秀的真实场景泛化能力。
下载量 17
发布时间 : 9/10/2024

模型简介

该模型是Meta开发的21亿参数视觉Transformer,用于人体图像的相对深度估计任务,在合成数据和真实数据场景下均表现优异。

模型特点

高分辨率支持
原生支持1024×1024分辨率输入,最高可处理1024×768尺寸的人体图像
合成数据泛化
即使在完全使用合成数据训练的情况下,仍能保持对真实场景数据的优秀泛化能力
高效计算
采用bfloat16数据格式优化,计算量达8.709万亿次浮点运算

模型能力

人体深度估计
高分辨率图像处理
合成数据到真实场景的迁移学习

使用案例

虚拟现实
3D人体建模
从单张图像生成人体深度信息用于3D建模
可生成精确的相对深度图
影视特效
深度感知特效
为影视后期制作提供人体深度信息
支持更真实的景深效果和虚拟场景融合
AIbase
智启未来,您的人工智能解决方案智库
简体中文