许可证: mit
标签:
模型索引:
- 名称: dpt-swinv2-tiny-256
结果:
- 任务:
类型: 单目深度估计
名称: 单目深度估计
数据集:
类型: MIX-6
名称: MIX-6
指标:
- 类型: 零样本迁移
值: 10.82
名称: 零样本迁移
配置: 零样本迁移
已验证: false
Midas 3.1 DPT (基于Swinv2骨干网络的Intel/dpt-swinv2-tiny-256)
DPT(密集预测变换器)模型在140万张图像上训练,用于单目深度估计。该模型由Ranftl等人在论文《密集预测的视觉变换器》中提出,并首次发布于此仓库。
免责声明: 发布DPT的团队未为此模型编写模型卡,因此本模型卡由英特尔和Hugging Face团队编写。
单目深度估计概述
单目深度估计的目标是从单张图像或相机视图中推断出详细的深度信息,应用于生成式AI、3D重建和自动驾驶等领域。然而,由于问题的欠约束性质,从单张图像的单个像素中推导深度具有挑战性。最近的进展归功于基于学习的方法,特别是MiDaS,它利用了数据集混合和尺度与平移不变损失。MiDaS已通过多个版本演进,包括更强大的骨干网络和适用于移动端的轻量级变体。随着计算机视觉中变换器架构的兴起,包括ViT、Swin和SwinV2等模型,深度估计领域也开始采用这些架构。受此启发,MiDaS v3.1结合了有前景的基于变换器的编码器和传统卷积编码器,旨在全面研究深度估计技术。论文重点描述了这些骨干网络如何集成到MiDaS中,提供了不同v3.1模型的详细比较,并指导如何将未来的骨干网络与MiDaS结合使用。
Swin变换器(Swin代表移位窗口)最初在arXiv中描述,能够作为计算机视觉的通用骨干网络。它基本上是一个分层变换器,其表示通过移位窗口计算。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口中,同时允许跨窗口连接,从而提高了效率。
Swin变换器在COCO目标检测(测试集上58.7的框AP和51.1的掩码AP)和ADE20K语义分割(验证集上53.5的mIoU)上表现出色,大幅超越之前的模型。
输入图像 |
输出深度图像 |
 |
 |
视频

MiDaS深度估计是英特尔实验室开发的机器学习模型,用于单目深度估计。它在多达12个数据集上训练,涵盖室内外场景。提供多种不同的MiDaS模型,从高质量深度估计到适用于移动下游任务的轻量级模型(https://github.com/isl-org/MiDaS)。
模型描述
此Midas 3.1 DPT模型使用SwinV2哲学模型作为骨干网络,采用与Beit不同的视觉方法,其中Swin骨干网络更注重使用分层方法。

之前的MiDaS v3.0版本仅使用普通视觉变换器ViT,而MiDaS v3.1提供了基于BEiT、Swin、SwinV2、Next-ViT和LeViT的额外模型。
Midas 3.1 DPT模型(Swin骨干网络)
此模型指基于Swin骨干网络的Intel dpt-swinv2-tiny-256。arXiv论文比较了Beit和Swin骨干网络。
使用BEiT变换器可实现最高质量的深度估计。我们提供了Swin-L、SwinV2-L、SwinV2-B、SwinV2-T等变体,其中数字表示512x512和384x384的训练分辨率,字母分别表示大模型和基础模型。
DPT(密集预测变换器)模型在140万张图像上训练,用于单目深度估计。该模型由Ranftl等人在论文《密集预测的视觉变换器》中提出,并首次发布于此仓库。
此模型卡特指论文中的SwinV2,称为dpt-swinv2-tiny-256。2013年的一篇较新论文专门讨论了Swin和SwinV2,见《MiDaS v3.1 – 用于鲁棒单目相对深度估计的模型库》。
本模型卡由Hugging Face团队和英特尔联合编写。
预期用途 |
描述 |
主要预期用途 |
您可以使用原始模型进行零样本单目深度估计。查看模型中心寻找您感兴趣任务的微调版本。 |
主要预期用户 |
进行单目深度估计的任何人 |
超出范围的用途 |
在大多数情况下,此模型需要针对您的特定任务进行微调。该模型不应被用于故意制造敌对或疏远人的环境。 |
使用方法
确保更新PyTorch和Transformers,因为版本不匹配可能会产生错误,例如:“TypeError: unsupported operand type(s) for //: 'NoneType' and 'NoneType'”。
根据贡献者测试,以下版本运行正确:
import torch
import transformers
print(torch.__version__)
print(transformers.__version__)
输出: '2.2.1+cpu'
输出: '4.37.2'
安装:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
使用:
以下是如何使用此模型对图像进行零样本深度估计:
output = prediction.squeeze().cpu().numpy()
formatted = (output * 255 / np.max(output)).astype("uint8")
depth = Image.fromarray(formatted)
depth
或使用pipeline API:
from transformers import pipeline
pipe = pipeline(task="depth-estimation", model="Intel/dpt-swinv2-tiny-256")
result = pipe("http://images.cocodataset.org/val2017/000000181816.jpg")
result["depth"]
定量分析
模型 |
方形分辨率HRWSI RMSE |
方形分辨率Blended MVS REL |
方形分辨率ReDWeb RMSE |
BEiT 384-L |
0.068 |
0.070 |
0.076 |
Swin-L 训练1 |
0.0708 |
0.0724 |
0.0826 |
Swin-L 训练2 |
0.0713 |
0.0720 |
0.0831 |
ViT-L |
0.071 |
0.072 |
0.082 |
--- |
--- |
--- |
--- |
Next-ViT-L-1K-6M |
0.075 |
0.073 |
0.085 |
DeiT3-L-22K-1K |
0.070 |
0.070 |
0.080 |
ViT-L-Hybrid |
0.075 |
0.075 |
0.085 |
DeiT3-L |
0.077 |
0.075 |
0.087 |
--- |
--- |
--- |
--- |
ConvNeXt-XL |
0.075 |
0.075 |
0.085 |
ConvNeXt-L |
0.076 |
0.076 |
0.087 |
EfficientNet-L2 |
0.165 |
0.277 |
0.219 |
--- |
--- |
--- |
--- |
ViT-L 反向 |
0.071 |
0.073 |
0.081 |
Swin-L 等距 |
0.072 |
0.074 |
0.083 |
--- |
--- |
--- |
--- |
伦理考量和限制
dpt-swinv2-tiny-256可能产生事实不正确的输出,不应依赖其产生事实准确的信息。由于预训练模型和微调数据集的限制,此模型可能生成低俗、偏见或其他冒犯性输出。
因此,在部署dpt-swinv2-tiny-256的任何应用之前,开发人员应进行安全测试。
注意事项和建议
用户(直接和下游)应了解模型的风险、偏见和限制。
以下是了解英特尔AI软件的几个有用链接:
- 英特尔神经压缩器 链接
- 英特尔Transformers扩展 链接
免责声明
本模型的许可证不构成法律建议。我们对第三方使用此模型的行为不负责。在将此模型用于商业用途之前,请咨询律师。
BibTeX条目和引用信息
@article{DBLP:journals/corr/abs-2103-13413,
author = {René Reiner Birkl, Diana Wofk, Matthias Muller},
title = {MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation},
journal = {CoRR},
volume = {abs/2307.14460},
year = {2021},
url = {https://arxiv.org/abs/2307.14460},
eprinttype = {arXiv},
eprint = {2307.14460},
timestamp = {Wed, 26 Jul 2023},
biburl = {https://dblp.org/rec/journals/corr/abs-2307.14460.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}