marigold-depth-v1-0开源模型 - 免费实现自然场景单目图像深度预测

首页

Marigold Depth V1 0

由 prs-eth 开发

基于稳定扩散模型微调的单目图像深度估计模型，具有仿射不变性，适用于自然场景的深度预测

3D视觉英语开源协议:Apache-2.0 #零样本深度估计 #扩散模型微调 #仿射不变深度

下载量 92.50k

发布时间 : 12/5/2023

模型简介

该模型用于从单张图像生成估计深度图，基于Stable Diffusion 2模型微调而成，支持零样本学习

模型特点

仿射不变深度估计

模型预测的深度值在0到1之间，具有仿射不变性，适用于不同尺度的场景

零样本学习能力

无需特定场景的训练数据即可进行深度估计

高效推理

支持1步推理获得良好预测结果，也可使用10-50步获得更精确结果

不确定性估计

当集成多个预测时，可生成不确定性图

模型能力

单目图像深度估计

自然场景分析

深度图生成

不确定性量化

使用案例

计算机视觉

3D场景重建

从单张图像估计场景深度信息

可用于3D建模和场景理解

增强现实

为AR应用提供深度信息

实现更真实的虚实融合效果

机器人视觉

自主导航

为机器人提供环境深度感知

辅助路径规划和避障

🚀 金盏花深度 v1-0 模型卡片

本模型可用于单目深度估计，从单张图像中生成深度图。它基于稳定扩散模型微调而来，在计算机视觉领域有重要应用价值。

🚀 快速开始

使用模型

体验交互式 Hugging Face Spaces 演示：查看模型如何处理示例图像，也可上传自己的图像。
使用 diffusers 库，只需几行代码即可计算结果。
查看官方代码库深入了解模型。

✨ 主要特性

本模型基于生成式潜在扩散，可进行单张图像的仿射不变单目深度估计。它能生成输入图像的估计深度图，具有以下特点：

分辨率：虽可处理任意分辨率图像，但模型继承了基础扩散模型约 768 像素的有效分辨率。为获得最佳预测效果，较大输入图像应调整为长边 768 像素后再输入模型。
步数和调度器：模型设计用于配合 DDIM 调度器，去噪步数在 10 到 50 之间。通过覆盖调度器配置文件中的 "timestep_spacing": "trailing" 设置，或在代码中加载管道后、首次使用前添加 pipe.scheduler = DDIMScheduler.from_config(pipe.scheduler.config, timestep_spacing="trailing")，仅需一步即可获得良好预测结果。出于兼容性考虑，此 v1 - 0 模型与论文设置保持一致，并提供了更新的 v1 - 1 模型，适用于所有可能的步数配置。
输出：
- 仿射不变深度图：预测值在 0 到 1 之间，在模型选择的近平面和远平面之间进行插值。
- 不确定性图：仅在集成大小大于 2 的多次预测时生成。

📚 详细文档

模型详情

开发者：柯冰心、安东·奥布霍夫、黄圣雨、南多·梅茨格、罗德里戈·凯·多德、康拉德·辛德勒。
模型类型：基于生成式潜在扩散的单张图像仿射不变单目深度估计。
语言：英语。
许可证：Apache 许可证 2.0 版。
更多信息资源：项目网站、论文、代码。

引用方式

@InProceedings{ke2023repurposing,
  title={Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation},
  author={Bingxin Ke and Anton Obukhov and Shengyu Huang and Nando Metzger and Rodrigo Caye Daudt and Konrad Schindler},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}

@misc{ke2025marigold,
  title={Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis},
  author={Bingxin Ke and Kevin Qu and Tianfu Wang and Nando Metzger and Shengyu Huang and Bo Li and Anton Obukhov and Konrad Schindler},
  year={2025},
  eprint={2505.09358},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}