D

Dpt Hybrid Midas

由 Intel 开发
基于视觉变换器(ViT)的单目深度估计模型,在140万张图像上训练
下载量 224.05k
发布时间 : 12/6/2022
模型介绍
内容详情
替代品

模型简介

密集预测变换器(DPT)模型,用于单目深度估计任务。该模型使用ViT-hybrid作为主干网络,能够从单张图像预测深度信息。

模型特点

零样本迁移能力
模型具备优秀的零样本迁移能力,可在未见过的数据集上表现良好
混合架构
使用ViT-hybrid作为主干网络,结合了卷积和变换器的优势
大规模训练
在约140万张图像的MIX-6数据集上训练,具有强大的泛化能力

模型能力

单目深度估计
零样本迁移
图像深度预测

使用案例

计算机视觉
场景深度分析
从单张图像估计场景中各物体的相对深度
可生成与输入图像对应的深度图
3D场景重建
为3D重建提供深度信息