许可协议: apache-2.0
标签:
微件示例:
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题: 老虎
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题: 茶壶
- 图片链接: https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题: 宫殿
模型索引:
- 名称: dpt-hybrid-midas
结果:
- 任务:
类型: 单目深度估计
名称: 单目深度估计
数据集:
类型: MIX-6
名称: MIX-6
指标:
- 类型: 零样本迁移
值: 11.06
名称: 零样本迁移
配置: 零样本迁移
已验证: false
模型详情: DPT-Hybrid (又称MiDaS 3.0)
密集预测变换器(DPT)模型,基于140万张图像训练用于单目深度估计。
该模型由Ranftl等人在论文《密集预测的视觉变换器》中提出(2021年),并首次发布于此代码库。
DPT使用视觉变换器(ViT)作为主干网络,并添加颈部+头部结构进行单目深度估计。

本仓库托管论文中所述的"混合"版本模型。DPT-Hybrid与DPT的区别在于使用ViT-hybrid作为主干网络并从主干获取部分激活值。
本模型卡由Hugging Face团队与英特尔共同编写。
预期用途 |
描述 |
主要用途 |
可用于零样本单目深度估计。查看模型中心寻找针对特定任务微调的版本。 |
主要用户 |
任何进行单目深度估计的人员 |
非适用场景 |
该模型在多数情况下需要针对特定任务进行微调。不应故意使用该模型制造敌对或疏远的环境。 |
使用方法
以下是如何使用该模型对图像进行零样本深度估计的示例:
from PIL import Image
import numpy as np
import requests
import torch
from transformers import DPTImageProcessor, DPTForDepthEstimation
image_processor = DPTImageProcessor.from_pretrained("Intel/dpt-hybrid-midas")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas", low_cpu_mem_usage=True)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = image_processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
predicted_depth = outputs.predicted_depth
prediction = torch.nn.functional.interpolate(
predicted_depth.unsqueeze(1),
size=image.size[::-1],
mode="bicubic",
align_corners=False,
)
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth.show()
更多代码示例请参阅文档。
影响因素 |
描述 |
数据组 |
多个数据集组合而成 |
工具 |
- |
环境 |
在Intel Xeon Platinum 8280 CPU @ 2.70GHz(8物理核心)和NVIDIA RTX 2080 GPU上完成推理。 |
提示项 |
在不同硬件和软件上部署模型将影响性能 |
评估指标 |
描述 |
模型性能指标 |
零样本迁移 |
决策阈值 |
- |
不确定性和变异性处理 |
- |
训练与评估数据 |
描述 |
数据集 |
名为MIX 6的数据集,包含约140万张图像。模型使用ImageNet预训练权重初始化。 |
动机 |
构建鲁棒的单目深度预测网络 |
预处理 |
"我们将图像长边调整为384像素,并在384大小的随机方形裁剪上训练...我们执行随机水平翻转进行数据增强。"详见Ranftl等人(2021)。 |
定量分析
模型 |
训练集 |
DIW WHDR |
ETH3D AbsRel |
Sintel AbsRel |
KITTI δ>1.25 |
NYU δ>1.25 |
TUM δ>1.25 |
DPT-大型 |
MIX 6 |
10.82 (-13.2%) |
0.089 (-31.2%) |
0.270 (-17.5%) |
8.46 (-64.6%) |
8.32 (-12.9%) |
9.97 (-30.3%) |
DPT-混合 |
MIX 6 |
11.06 (-11.2%) |
0.093 (-27.6%) |
0.274 (-16.2%) |
11.56 (-51.6%) |
8.69 (-9.0%) |
10.89 (-23.2%) |
MiDaS |
MIX 6 |
12.95 (+3.9%) |
0.116 (-10.5%) |
0.329 (+0.5%) |
16.08 (-32.7%) |
8.71 (-8.8%) |
12.51 (-12.5%) |
MiDaS [30] |
MIX 5 |
12.46 |
0.129 |
0.327 |
23.90 |
9.55 |
14.29 |
Li [22] |
MD [22] |
23.15 |
0.181 |
0.385 |
36.29 |
27.52 |
29.54 |
Li [21] |
MC [21] |
26.52 |
0.183 |
0.405 |
47.94 |
18.57 |
17.71 |
Wang [40] |
WS [40] |
19.09 |
0.205 |
0.390 |
31.92 |
29.57 |
20.18 |
Xian [45] |
RW [45] |
14.59 |
0.186 |
0.422 |
34.08 |
27.00 |
25.02 |
Casser [5] |
CS [8] |
32.80 |
0.235 |
0.422 |
21.15 |
39.58 |
37.18 |
表1. 与单目深度估计领域最新技术的比较。我们按照[30]中定义的协议评估零样本跨数据集迁移性能。相对性能是相对于原始MiDaS模型[30]计算的。所有指标都是越低越好。(Ranftl等人,2021)
伦理考量 |
描述 |
数据 |
训练数据来自多个图像数据集的组合。 |
人类生活 |
该模型不用于影响人类生活或发展的核心决策。它是单目深度图像数据集的聚合。 |
缓解措施 |
模型开发过程中未考虑额外的风险缓解策略。 |
风险与危害 |
使用该模型涉及的风险程度仍未知。 |
使用场景 |
- |
注意事项与建议 |
应让用户(包括直接和下游用户)了解模型的风险、偏见和局限性。该模型没有额外的注意事项或建议。 |
BibTeX引用信息
@article{DBLP:journals/corr/abs-2103-13413,
author = {Ren{\'{e}} Ranftl and
Alexey Bochkovskiy and
Vladlen Koltun},
title = {Vision Transformers for Dense Prediction},
journal = {CoRR},
volume = {abs/2103.13413},
year = {2021},
url = {https://arxiv.org/abs/2103.13413},
eprinttype = {arXiv},
eprint = {2103.13413},
timestamp = {Wed, 07 Apr 2021 15:31:46 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2103-13413.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}