D

Dpt Large

由 Intel 开发
基于视觉变换器(ViT)的单目深度估计模型,在140万张图像上训练,适用于零样本深度预测任务。
下载量 364.62k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

密集预测变换器(DPT)模型,专门用于从单张图像估计深度信息,无需针对特定场景微调即可实现跨数据集迁移。

模型特点

零样本迁移能力
无需微调即可在新数据集上实现良好性能,DIW WHDR指标达10.82
多数据集训练
基于MIX-6数据集(约140万张图像)训练,涵盖多样化场景
视觉变换器架构
采用ViT骨干网络结合专用预测头,实现密集预测任务

模型能力

单图像深度估计
跨数据集零样本迁移
密集预测转换

使用案例

计算机视觉
场景理解
从单张RGB图像推断场景深度信息
可生成与输入图像分辨率相同的深度图
增强现实
为AR应用提供实时深度感知