许可协议:apache-2.0
标签:
示例展示:
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/tiger.jpg
示例标题:老虎
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/teapot.jpg
示例标题:茶壶
- 图片链接:https://huggingface.co/datasets/mishig/sample_images/resolve/main/palace.jpg
示例标题:宫殿
模型索引:
- 名称:dpt-large
结果:
- 任务:
类型:单目深度估计
名称:单目深度估计
数据集:
类型:MIX-6
名称:MIX-6
指标:
- 类型:零样本迁移
值:10.82
名称:零样本迁移
配置:零样本迁移
已验证:否
模型详情:DPT-Large(又称MiDaS 3.0)
密集预测变换器(DPT)模型,基于140万张图像训练,用于单目深度估计。
该模型由Ranftl等人在论文《Vision Transformers for Dense Prediction》(2021年)中提出,并首次发布于此代码库。
DPT以视觉变换器(ViT)为骨干网络,并添加了用于单目深度估计的颈部与头部结构。

本模型卡由Hugging Face团队与英特尔联合编写。
预期用途 |
描述 |
主要用途 |
可直接使用原始模型进行零样本单目深度估计。查看模型中心寻找针对特定任务微调的版本。 |
主要用户群体 |
任何进行单目深度估计的人员 |
非适用场景 |
该模型在多数情况下需针对特定任务微调。不得用于故意制造敌对或排斥性环境。 |
使用方法
最简便的方式是利用管道API:
from transformers import pipeline
pipe = pipeline(task="depth-estimation", model="Intel/dpt-large")
result = pipe(image)
result["depth"]
若需自行实现完整逻辑,以下是零样本深度估计的代码示例:
from transformers import DPTImageProcessor, DPTForDepthEstimation
import torch
import numpy as np
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = DPTImageProcessor.from_pretrained("Intel/dpt-large")
model = DPTForDepthEstimation.from_pretrained("Intel/dpt-large")
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
predicted_depth = outputs.predicted_depth
prediction = torch.nn.functional.interpolate(
predicted_depth.unsqueeze(1),
size=image.size[::-1],
mode="bicubic",
align_corners=False,
)
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
更多代码示例请参阅文档。
影响因素 |
描述 |
数据组 |
多数据集合并 |
工具 |
- |
环境 |
在英特尔至强铂金8280 CPU(2.70GHz,8物理核心)和NVIDIA RTX 2080 GPU上完成推理。 |
提示项 |
更换硬件/软件部署将影响模型性能 |
评估指标 |
描述 |
模型性能指标 |
零样本迁移 |
决策阈值 |
- |
不确定性与变异性处理 |
- |
训练与评估数据 |
描述 |
数据集 |
数据集名为MIX 6,包含约140万张图像。模型以ImageNet预训练权重初始化。 |
动机 |
构建鲁棒的单目深度预测网络 |
预处理 |
"将图像长边调整为384像素,并随机裁剪384×384区域训练...通过随机水平翻转进行数据增强。"详见Ranftl等(2021)。 |
定量分析
模型 |
训练集 |
DIW WHDR |
ETH3D AbsRel |
Sintel AbsRel |
KITTI δ>1.25 |
NYU δ>1.25 |
TUM δ>1.25 |
DPT - Large |
MIX 6 |
10.82 (-13.2%) |
0.089 (-31.2%) |
0.270 (-17.5%) |
8.46 (-64.6%) |
8.32 (-12.9%) |
9.97 (-30.3%) |
DPT - Hybrid |
MIX 6 |
11.06 (-11.2%) |
0.093 (-27.6%) |
0.274 (-16.2%) |
11.56 (-51.6%) |
8.69 (-9.0%) |
10.89 (-23.2%) |
MiDaS |
MIX 6 |
12.95 (+3.9%) |
0.116 (-10.5%) |
0.329 (+0.5%) |
16.08 (-32.7%) |
8.71 (-8.8%) |
12.51 (-12.5%) |
MiDaS [30] |
MIX 5 |
12.46 |
0.129 |
0.327 |
23.90 |
9.55 |
14.29 |
Li [22] |
MD [22] |
23.15 |
0.181 |
0.385 |
36.29 |
27.52 |
29.54 |
Li [21] |
MC [21] |
26.52 |
0.183 |
0.405 |
47.94 |
18.57 |
17.71 |
Wang [40] |
WS [40] |
19.09 |
0.205 |
0.390 |
31.92 |
29.57 |
20.18 |
Xian [45] |
RW [45] |
14.59 |
0.186 |
0.422 |
34.08 |
27.00 |
25.02 |
Casser [5] |
CS [8] |
32.80 |
0.235 |
0.422 |
21.15 |
39.58 |
37.18 |
表1. 单目深度估计领域对比。按照[30]定义的协议评估零样本跨数据集迁移性能。相对性能以原始MiDaS模型[30]为基准计算。所有指标数值越低越好。(Ranftl等,2021)
伦理考量 |
描述 |
数据 |
训练数据来自多个合并的图像数据集 |
人类生活 |
该模型不应用于影响人类生命或发展的核心决策,仅为单目深度图像数据集的聚合 |
缓解措施 |
模型开发过程中未考虑额外风险缓解策略 |
风险与危害 |
使用模型的风险程度尚不明确 |
应用场景 |
- |
注意事项与建议 |
应告知用户(包括直接和下游用户)该模型的风险、偏见和局限性。本模型无其他特别注意事项或建议。 |
BibTeX引用信息
@article{DBLP:journals/corr/abs-2103-13413,
author = {Ren{\'{e}} Ranftl and
Alexey Bochkovskiy and
Vladlen Koltun},
title = {Vision Transformers for Dense Prediction},
journal = {CoRR},
volume = {abs/2103.13413},
year = {2021},
url = {https://arxiv.org/abs/2103.13413},
eprinttype = {arXiv},
eprint = {2103.13413},
timestamp = {Wed, 07 Apr 2021 15:31:46 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2103-13413.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}