开源Depth Anything V2模型 - 实现精细且鲁棒的深度预测功能！

首页

Coreml Depth Anything V2 Small

由 apple 开发

Depth Anything V2 是基于 DPT 架构的深度估计模型，采用 DINOv2 骨干网络，通过大规模合成和真实数据训练，实现精细且鲁棒的深度预测。

3D视觉开源协议:Apache-2.0 #高精度深度估计 #移动端优化 #合成数据增强

下载量 67

发布时间 : 6/15/2024

模型简介

该模型用于图像深度估计任务，能够预测输入图像的深度信息，适用于计算机视觉和增强现实等应用场景。

模型特点

大规模数据训练

在约60万张合成标注图像和约6200万张真实无标注图像上进行训练

高性能深度预测

在相对和绝对深度估计任务上均取得了最先进的结果

多平台支持

提供 Core ML 格式模型，可在 iOS 和 macOS 设备上高效运行

精度优化

提供 Float32 和 Float16 两种精度变体，平衡性能和精度需求

模型能力

图像深度估计

相对深度预测

绝对深度预测

使用案例

计算机视觉

3D场景重建

从单张图像预测深度信息，辅助3D场景建模

增强现实

为AR应用提供准确的深度信息，实现更真实的虚实融合

自动驾驶

环境感知

辅助自动驾驶系统理解周围环境的深度信息

🚀 深度任意模型V2 Core ML模型

深度任意模型V2由李和杨等人在同名论文中提出。它采用了与原始深度任意模型相同的架构，但使用了合成数据和更大容量的教师模型，以实现更精细、更稳健的深度预测。原始的深度任意模型由李和杨等人在论文《深度任意：释放大规模无标签数据的力量》中提出，并首次在此仓库中发布。

✨ 主要特性

基于DPT架构和DINOv2骨干网络。
在约60万张合成标注图像和约6200万张真实无标注图像上进行训练，在相对和绝对深度估计方面均取得了最先进的成果。

📚 详细文档

模型描述

深度任意模型V2利用了DPT架构，并以DINOv2作为骨干网络。

该模型在约60万张合成标注图像和约6200万张真实无标注图像上进行训练，在相对和绝对深度估计方面都取得了最先进的成果。

深度任意模型概述

深度任意模型概述。取自原论文。

评估 - 变体

变体	参数数量	大小 (MB)	权重精度	激活精度	绝对相对误差	绝对相对参考
small-original (PyTorch)	2480万	99.2	Float32	Float32
DepthAnythingV2SmallF32	2480万	99.2	Float32	Float32	0.0072	small-original
DepthAnythingV2SmallF16	2480万	49.8	Float16	Float16	0.0089	small-original

评估基于COCO数据集中的512张风景图像，宽高比接近4:3。图像被拉伸至固定大小518x396，真实值对应于在CUDA上以float32精度运行的PyTorch模型的结果。

评估 - 推理时间

以下结果使用的是小尺寸Float16变体。

设备	操作系统	推理时间 (ms)	主要计算单元
iPhone 12 Pro Max	18.0	31.10	神经网络引擎
iPhone 15 Pro Max	17.4	33.90	神经网络引擎
MacBook Pro (M1 Max)	15.0	32.80	神经网络引擎
MacBook Pro (M3 Max)	15.0	24.58	神经网络引擎

📦 安装指南

安装`huggingface-cli`

brew install huggingface-cli

下载`.mlpackage`文件夹到`models`目录

huggingface-cli download \
  --local-dir models --local-dir-use-symlinks False \
  apple/coreml-depth-anything-v2-small \
  --include "DepthAnythingV2SmallF16.mlpackage/*"

若要下载所有内容，可省略--include参数。