Geometrycrafter

由 TencentARC 开发

GeometryCrafter是一种从开放世界视频中估计时间一致的高质量点云图的方法，支持3D/4D重建和基于深度的视频编辑或生成等下游应用。

3D视觉

英语

开源协议:其他 #视频转3D点云 #开放世界几何估计 #扩散模型先验

下载量 78

发布时间 : 3/31/2025

模型介绍

内容详情

替代品

模型简介

GeometryCrafter利用扩散先验技术，从视频中提取一致性几何信息，生成高质量的点云图，适用于多种3D视觉任务。

模型特点

开放世界视频处理

能够处理开放世界中的多样化视频内容，不受特定场景限制。

时间一致性几何估计

生成时间一致的高质量点云图，确保视频帧间几何信息的连贯性。

高分辨率处理能力

支持高分辨率视频处理（如1024x576），并可通过调整参数适应不同硬件配置。

确定性变体

提供确定性推理选项，平衡速度与结果一致性。

模型能力

视频到3D点云转换

时间一致性几何估计

高分辨率视频处理

点云可视化

使用案例

3D重建

视频3D重建

从普通视频生成可用于3D建模的点云数据

高质量、时间一致的点云输出

视频编辑

基于深度的视频编辑

利用估计的几何信息进行深度感知的视频编辑

更自然的深度效果编辑

基础模型:

腾讯/DepthCrafter
stabilityai/stable-video-diffusion-img2vid-xt 语言:
英文库名称: geometry-crafter 许可证: 其他标签:
视频转3D
点云

GeometryCrafter: 基于扩散先验的开放世界视频一致性几何估计

徐天行¹, 高向军³, 胡文博^{2 †}, 李晓宇², 张松海^{1 †}, 单瀛²
¹清华大学 ²腾讯PCG ARC实验室 ³香港科技大学

🔆 公告

GeometryCrafter仍在积极开发中！

我们建议大家在提交问题时使用英文交流，这有助于全球开发者共同讨论、分享经验和解答问题。如需进一步了解实现细节，请联系xutx21@mails.tsinghua.edu.cn。关于商业授权等相关事宜，请随时联系wbhu@tencent.com。

如果您觉得GeometryCrafter有用，请帮忙给这个仓库点个⭐，这对开源项目非常重要。谢谢！

📝 简介

我们提出了GeometryCrafter，这是一种新颖的方法，可以从开放世界视频中估计时间一致的高质量点云图，促进3D/4D重建和基于深度的视频编辑或生成等下游应用。该模型的详细描述请参阅论文GeometryCrafter: 基于扩散先验的开放世界视频一致性几何估计。

发布说明：

[2025年4月1日] 🔥🔥🔥GeometryCrafter现已发布，尽情体验！

🚀 快速开始

安装

克隆本仓库：

git clone --recursive https://github.com/TencentARC/GeometryCrafter

安装依赖（请参考requirements.txt）：

pip install -r requirements.txt

推理

在我们的演示视频上运行推理代码，速度为1.27FPS，处理110帧1024x576分辨率的视频需要约40GB显存的GPU：

python run.py \
  --video_path examples/video1.mp4 \
  --save_folder workspace/examples_output \
  --height 576 --width 1024
  # 将输入视频调整为目标分辨率进行处理，分辨率应能被64整除
  # 输出的点云图将在保存前恢复为原始分辨率
  # 可以使用--downsample_ratio对输入视频进行下采样，或减少--decode_chunk_size以节省显存

使用我们的确定性变体运行推理代码，速度为1.50 FPS

python run.py \
  --video_path examples/video1.mp4 \
  --save_folder workspace/examples_output \
  --height 576 --width 1024 \
  --model_type determ

运行低分辨率处理，速度为2.49 FPS，需要约22GB显存的GPU：

python run.py \
  --video_path examples/video1.mp4 \
  --save_folder workspace/examples_output \
  --height 384 --width 640

可视化

使用Viser可视化预测的点云图

python visualize/vis_point_maps.py \
  --video_path examples/video1.mp4 \
  --data_path workspace/examples_output/video1.npz

🤖 Gradio演示

在线演示：GeometryCrafter
本地演示：
```
gradio app.py
```

📊 数据集评估

请查看evaluation文件夹。

要创建我们在论文中使用的数据集，您需要运行evaluation/preprocess/gen_{dataset_name}.py。
您需要根据您的工作环境首先更改DATA_DIR和OUTPUT_DIR。
然后您将获得包含提取的RGB视频和点云图npz文件的预处理数据集。我们还提供了这些文件的目录。
所有数据集的推理脚本：
```
bash evaluation/run_batch.sh
```
（记得将data_root_dir和save_root_dir替换为您的路径。）
所有数据集的评估脚本（尺度不变的点云图估计）：
```
bash evaluation/eval.sh
```
（记得将pred_data_root_dir和gt_data_root_dir替换为您的路径。）
所有数据集的评估脚本（仿射不变的深度估计）：
```
bash evaluation/eval_depth.sh
```
（记得将pred_data_root_dir和gt_data_root_dir替换为您的路径。）
我们还提供了MoGe和我们方法的确定性变体的比较结果。您可以通过取消注释evaluation/run.sh、evaluation/eval.sh、evaluation/run_batch.sh和evaluation/eval_depth.sh中的相应行，在同一协议下评估这些方法。

🤝 贡献

欢迎提交问题和拉取请求。
欢迎优化推理速度和内存使用，例如通过模型量化、蒸馏或其他加速技术。

📜 引用

如果您觉得这项工作有帮助，请考虑引用：

@misc{xu2025geometrycrafterconsistentgeometryestimation,
      title={GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors}, 
      author={Tian-Xing Xu and Xiangjun Gao and Wenbo Hu and Xiaoyu Li and Song-Hai Zhang and Ying Shan},
      year={2025},
      eprint={2504.01016},
      archivePrefix={arXiv},
      primaryClass={cs.GR},
      url={https://arxiv.org/abs/2504.01016}, 
}