Sapiens-depth-2b-torchscript开源人体视觉模型 - 助力人体中心视觉任务，泛化能力强

首页

Sapiens Depth 2b Torchscript

由 facebook 开发

Sapiens是基于3亿张1024×1024分辨率人体图像预训练的视觉Transformer模型，专为人体中心视觉任务设计，具有卓越的泛化能力。

3D视觉英语#人体深度估计 #高分辨率视觉 #合成数据泛化

下载量 58

发布时间 : 9/9/2024

模型简介

该模型用于人体图像的相对深度估计，原生支持1K高分辨率推理，在标注数据稀缺或完全合成的情况下仍能保持良好性能。

模型特点

高分辨率支持

原生支持1K高分辨率(1024×768)推理

强大的泛化能力

即使在标注数据稀缺或完全合成的情况下，也能展现出对真实数据的卓越泛化能力

大规模预训练

基于3亿张1024×1024分辨率人体图像预训练

模型能力

人体图像深度估计

高分辨率图像处理

使用案例

计算机视觉

人体深度估计

从单张人体图像中估计相对深度信息

可生成精确的深度图

🚀 Depth-Sapiens-2B-Torchscript

本项目的模型能够基于人类图像进行相对深度估计，在以人类为中心的视觉任务中表现出色，即使在标记数据稀缺或完全合成的情况下，也能对野外数据实现显著的泛化。

🚀 快速开始

本模型可直接用于人类图像的相对深度估计任务，你可以参考下方给出的模型信息，结合实际需求进行使用。

✨ 主要特性

Sapiens 是一系列视觉变换器模型，在 3 亿张分辨率为 1024 x 1024 的人类图像上进行了预训练。经过微调后，这些预训练模型在以人类为中心的视觉任务中，能够很好地适应野外环境。
Sapiens-2B 原生支持 1K 高分辨率推理。即使在标记数据稀缺或完全合成的情况下，得到的模型也能对野外数据展现出出色的泛化能力。

📚 详细文档

模型详情

开发者：Meta
模型类型：视觉变换器
许可证：知识共享署名-非商业性使用 4.0 国际许可协议
任务：深度估计
格式：torchscript
文件：sapiens_2b_render_people_epoch_25_torchscript.pt2

模型卡片

属性	详情
图像尺寸	1024 x 768（高 x 宽）
参数数量	21.63 亿
浮点运算次数	8.709 TFLOPs
图像块尺寸	16 x 16
嵌入维度	1920
层数	48
头数	32
前馈通道数	7680

💻 使用示例

基础用法

本模型可用于人类图像的相对深度估计，以下是一个简单的使用思路（实际代码需根据具体情况编写）：

# 这里假设使用 torch 加载模型
import torch

# 加载模型文件
model = torch.jit.load('sapiens_2b_render_people_epoch_25_torchscript.pt2')

# 加载人类图像（这里省略图像加载和预处理代码）
image = ...

# 进行推理
output = model(image)

# 处理输出结果
...