DepthPro-mixin开源深度估计模型 - 零样本单目测距合成高分辨率深度图

首页

Depthpro Mixin

由 apple 开发

一款零样本单目测距深度估计基础模型，能合成具有无与伦比锐度和高频细节的高分辨率深度图

3D视觉

Safetensors

#亚秒级测距 #零样本深度估计 #高频细节保留

下载量 17

发布时间 : 10/5/2024

模型简介

Depth Pro是一款高性能单目深度估计模型，能够快速生成带绝对尺度的度量深度图，无需依赖相机内参等元数据。

模型特点

亚秒级推理速度

在标准GPU上仅需0.3秒即可生成225万像素的深度图

高精度边界追踪

结合真实与合成数据的训练方案，保持精细边界追踪能力

无需相机参数

预测结果为带绝对尺度的度量值，无需依赖相机内参等元数据

焦距估计能力

集成从单幅图像进行焦距估计的尖端技术

模型能力

单目深度估计

度量深度预测

高频细节保留

快速推理

使用案例

计算机视觉

3D场景重建

从单张图像重建3D场景

生成带绝对尺度的精确深度图

增强现实

为AR应用提供实时深度信息

支持虚拟物体与真实场景的精确交互

机器人技术

自主导航

为机器人提供环境深度感知

支持避障和路径规划

🚀 Depth Pro：一秒内实现清晰单目度量深度估计

我们推出了一种用于零样本度量单目深度估计的基础模型。我们的模型“Depth Pro”能够合成具有无与伦比清晰度和高频细节的高分辨率深度图。其预测结果是具有绝对尺度的度量值，无需依赖相机内参等元数据。并且该模型速度极快，在标准GPU上仅需0.3秒就能生成一张225万像素的深度图。这些特性得益于多项技术创新，包括用于密集预测的高效多尺度视觉变换器、结合真实和合成数据集以实现高度量精度和精细边界追踪的训练方案、用于评估估计深度图边界精度的专用评估指标，以及从单张图像进行的最先进的焦距估计技术。

Depth Pro在论文 Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 中被首次提出，作者为 Aleksei Bochkovskii、Amaël Delaunoy、Hugo Germain、Marcel Santos、Yichao Zhou、Stephan R. Richter 和 Vladlen Koltun。

本仓库中的检查点是一个参考实现，已经过重新训练。其性能接近论文中报告的模型，但并不完全一致。

Depth Pro演示图

🚀 快速开始

请按照代码仓库中的步骤设置您的环境。然后您可以：

💻 使用示例

基础用法

from huggingface_hub import PyTorchModelHubMixin
from depth_pro import create_model_and_transforms, load_rgb
from depth_pro.depth_pro import (create_backbone_model, load_monodepth_weights,
                                 DepthPro, DepthProEncoder, MultiresConvDecoder)
import depth_pro
from torchvision.transforms import Compose, Normalize, ToTensor


class DepthProWrapper(DepthPro, PyTorchModelHubMixin):
    """Depth Pro网络。"""

    def __init__(
        self,
        patch_encoder_preset: str,
        image_encoder_preset: str,
        decoder_features: str,
        fov_encoder_preset: str,
        use_fov_head: bool = True,
        **kwargs,
    ):
        """初始化Depth Pro。"""

        patch_encoder, patch_encoder_config = create_backbone_model(
            preset=patch_encoder_preset
        )
        image_encoder, _ = create_backbone_model(
            preset=image_encoder_preset
        )

        fov_encoder = None
        if use_fov_head and fov_encoder_preset is not None:
            fov_encoder, _ = create_backbone_model(preset=fov_encoder_preset)

        dims_encoder = patch_encoder_config.encoder_feature_dims
        hook_block_ids = patch_encoder_config.encoder_feature_layer_ids
        encoder = DepthProEncoder(
            dims_encoder=dims_encoder,
            patch_encoder=patch_encoder,
            image_encoder=image_encoder,
            hook_block_ids=hook_block_ids,
            decoder_features=decoder_features,
        )
        decoder = MultiresConvDecoder(
            dims_encoder=[encoder.dims_encoder[0]] + list(encoder.dims_encoder),
            dim_decoder=decoder_features,
        )

        super().__init__(
            encoder=encoder,
            decoder=decoder,
            last_dims=(32, 1),
            use_fov_head=use_fov_head,
            fov_encoder=fov_encoder,
        )


# 加载模型和预处理转换
model = DepthProWrapper.from_pretrained("apple/DepthPro-mixin")
transform = Compose(
        [
            ToTensor(),
            Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
        ]
    )


model.eval()

# 加载并预处理图像。
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)

# 运行推理。
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"]  # 深度，单位为米。
focallength_px = prediction["focallength_px"]  # 焦距，单位为像素。

高级用法

# 边界指标评估代码
# 对于基于深度的数据集
boundary_f1 = SI_boundary_F1(predicted_depth, target_depth)

# 对于基于掩码的数据集（图像抠图/分割） 
boundary_recall = SI_boundary_Recall(predicted_depth, target_mask)

📄 许可证

本项目使用的许可证为apple-amlr。

📚 详细文档

引用

如果您觉得我们的工作有用，请引用以下论文：

@article{Bochkovskii2024:arxiv,
  author     = {Aleksei Bochkovskii and Ama\"{e}l Delaunoy and Hugo Germain and Marcel Santos and
               Yichao Zhou and Stephan R. Richter and Vladlen Koltun}
  title      = {Depth Pro: Sharp Monocular Metric Depth in Less Than a Second},
  journal    = {arXiv},
  year       = {2024},
}