dpt-beit-large-512开源模型 - 从单张图像精准推断精细深度信息

首页

Dpt Beit Large 512

由 Intel 开发

基于BEiT Transformer的单目深度估计模型，能够从单张图像推断精细深度信息

3D视觉

Transformers

开源协议:MIT #零样本深度估计 #BEiT骨干网络 #高精度深度图

下载量 2,794

发布时间 : 11/28/2023

模型简介

该DPT模型以BEiT模型为骨干网络，顶部添加颈部与头部结构实现单目深度估计，应用于生成式AI、三维重建和自动驾驶等领域。

模型特点

高质量深度估计

使用BEiT Transformer可获得最高质量的深度估计结果

多分辨率支持

提供BEiT512-L、BEiT384-L和BEiT384-B等变体，支持不同训练分辨率

零样本迁移能力

具备零样本迁移能力，指标值为10.82

模型能力

单目深度估计

图像深度信息推断

零样本迁移

使用案例

计算机视觉

三维重建

从单张图像推断深度信息用于三维场景重建

自动驾驶

为自动驾驶系统提供环境深度感知

生成式AI

为生成式AI模型提供深度信息输入

🚀 单目深度估计模型 dpt-beit-large-512

单目深度估计旨在从单张图像或相机视角推断出详细的深度信息，在生成式AI、3D重建和自动驾驶等领域有着广泛的应用。本项目的dpt-beit-large-512模型，基于BEiT架构，为单目深度估计提供了有效的解决方案。

🚀 快速开始

单目深度估计致力于从单张图像或相机视角推断详细的深度信息，在生成式AI、3D重建和自动驾驶等领域具有广泛应用。然而，由于问题的约束不足，从单张图像的单个像素中推导深度极具挑战性。近年来，基于学习的方法取得了显著进展，特别是MiDaS，它利用数据集混合和尺度与平移不变损失。MiDaS不断发展，推出了具有更强大骨干网络的版本以及适用于移动设备的轻量级变体。随着Transformer架构在计算机视觉领域的兴起，包括ViT等模型的开创，人们开始将其用于深度估计。受此启发，MiDaS v3.1结合了有前景的基于Transformer的编码器和传统的卷积编码器，旨在全面研究深度估计技术。

输入图像	输出深度图像

✨ 主要特性

强大的骨干网络：该DPT模型使用BEiT模型作为骨干网络，并在顶部添加了颈部和头部，用于单目深度估计。
多种变体选择：提供了如BEiT512 - L、BEiT384 - L和BEiT384 - B等变体，数字表示训练分辨率，字母表示模型大小。
广泛的应用场景：可用于零样本单目深度估计，适用于任何进行单目深度估计的用户。

📦 安装指南

安装依赖

确保更新PyTorch和Transformers，版本不匹配可能会导致错误，如："TypeError: unsupported operand type(s) for //: 'NoneType' and 'NoneType'"。经测试，以下版本可正常运行：

import torch
import transformers
print(torch.__version__)
print(transformers.__version__)

out: '2.2.1+cpu'
out: '4.37.2'

安装命令如下：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

💻 使用示例

基础用法

以下是如何使用该模型对图像进行零样本深度估计的示例：

from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = DPTImageProcessor.from_pretrained("Intel/dpt-beit-large-512")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-beit-large-512")

# prepare image for the model
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    predicted_depth = outputs.predicted_depth

# interpolate to original size
prediction = torch.nn.functional.interpolate(
    predicted_depth.unsqueeze(1),
    size=image.size[::-1],
    mode="bicubic",
    align_corners=False,
)

# visualize the prediction
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth

高级用法

也可以使用管道API：

from transformers import pipeline

pipe = pipeline(task="depth-estimation", model="Intel/dpt-beit-large-512")
result = pipe("http://images.cocodataset.org/val2017/000000181816.jpg")
result["depth"]

📚 详细文档

模型详情

属性	详情
模型作者 - 公司	Intel
日期	2024年3月7日
版本	1
类型	计算机视觉 - 单目深度估计
论文或其他资源	MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation 和 GitHub Repo
许可证	MIT
问题或评论	社区板块和 Intel开发者Discord

预期用途

预期用途	描述
主要预期用途	可以使用原始模型进行零样本单目深度估计。查看模型中心以寻找针对您感兴趣的任务进行微调的版本。
主要预期用户	任何进行单目深度估计的人
非预期用途	该模型在大多数情况下需要针对您的特定任务进行微调。该模型不应被用于故意为人们创造敌对或疏远的环境。

定量分析

模型	方形分辨率HRWSI RMSE	方形分辨率混合MVS REL	方形分辨率ReDWeb RMSE
BEiT 384 - L	0.068	0.070	0.076
Swin - L训练1	0.0708	0.0724	0.0826
Swin - L训练2	0.0713	0.0720	0.0831
ViT - L	0.071	0.072	0.082
---	---	---	---
Next - ViT - L - 1K - 6M	0.075	0.073	0.085
DeiT3 - L - 22K - 1K	0.070	0.070	0.080
ViT - L - Hybrid	0.075	0.075	0.085
DeiT3 - L	0.077	0.075	0.087
---	---	---	---
ConvNeXt - XL	0.075	0.075	0.085
ConvNeXt - L	0.076	0.076	0.087
EfficientNet - L2	0.165	0.277	0.219
---	---	---	---
ViT - L Reversed	0.071	0.073	0.081
Swin - L Equidistant	0.072	0.074	0.083
---	---	---	---

🔧 技术细节

该DPT模型在140万张图像上进行了单目深度估计训练。它由Ranftl等人在2021年的论文Vision Transformers for Dense Prediction中提出，并首次在this repository中发布。本模型卡具体指论文中的BEiT512 - L，即dpt - beit - large - 512。一篇2023年的论文专门讨论了BEiT，详见MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation。

📄 许可证

本模型采用MIT许可证，但该许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。如需将此模型用于商业目的，请咨询律师。

⚠️ 重要提示

输出准确性：dpt - beit - large - 512可能会产生事实错误的输出，不应依赖它来生成事实准确的信息。由于预训练模型和微调数据集的限制，该模型可能会生成低俗、有偏见或其他冒犯性的输出。因此，在部署dpt - beit - large - 512的任何应用程序之前，开发人员应进行安全测试。
用户风险告知：用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。

💡 使用建议

这里有几个有用的链接，可了解更多关于英特尔AI软件的信息：

英特尔神经压缩器链接
英特尔Transformer扩展链接

BibTeX引用

@article{DBLP:journals/corr/abs-2103-13413,
  author    = {Ren{\'{e}} Reiner Birkl, Diana Wofk, Matthias Muller},
  title     = {MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation},
  journal   = {CoRR},
  volume    = {abs/2307.14460},
  year      = {2021},
  url       = {https://arxiv.org/abs/2307.14460},
  eprinttype = {arXiv},
  eprint    = {2307.14460},
  timestamp = {Wed, 26 Jul 2023},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2307.14460.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}