基础模型:
- 腾讯/DepthCrafter
- stabilityai/stable-video-diffusion-img2vid-xt
语言:
- 英文
库名称: geometry-crafter
许可证: 其他
标签:
- 视频转3D
- 点云
GeometryCrafter: 基于扩散先验的开放世界视频一致性几何估计
🔆 公告
GeometryCrafter仍在积极开发中!
我们建议大家在提交问题时使用英文交流,这有助于全球开发者共同讨论、分享经验和解答问题。如需进一步了解实现细节,请联系xutx21@mails.tsinghua.edu.cn
。关于商业授权等相关事宜,请随时联系wbhu@tencent.com
。
如果您觉得GeometryCrafter有用,请帮忙给这个仓库点个⭐,这对开源项目非常重要。谢谢!
📝 简介
我们提出了GeometryCrafter,这是一种新颖的方法,可以从开放世界视频中估计时间一致的高质量点云图,促进3D/4D重建和基于深度的视频编辑或生成等下游应用。该模型的详细描述请参阅论文GeometryCrafter: 基于扩散先验的开放世界视频一致性几何估计。
发布说明:
[2025年4月1日]
🔥🔥🔥GeometryCrafter现已发布,尽情体验!
🚀 快速开始
安装
- 克隆本仓库:
git clone --recursive https://github.com/TencentARC/GeometryCrafter
- 安装依赖(请参考requirements.txt):
pip install -r requirements.txt
推理
在我们的演示视频上运行推理代码,速度为1.27FPS,处理110帧1024x576分辨率的视频需要约40GB显存的GPU:
python run.py \
--video_path examples/video1.mp4 \
--save_folder workspace/examples_output \
--height 576 --width 1024
使用我们的确定性变体运行推理代码,速度为1.50 FPS
python run.py \
--video_path examples/video1.mp4 \
--save_folder workspace/examples_output \
--height 576 --width 1024 \
--model_type determ
运行低分辨率处理,速度为2.49 FPS,需要约22GB显存的GPU:
python run.py \
--video_path examples/video1.mp4 \
--save_folder workspace/examples_output \
--height 384 --width 640
可视化
使用Viser
可视化预测的点云图
python visualize/vis_point_maps.py \
--video_path examples/video1.mp4 \
--data_path workspace/examples_output/video1.npz
🤖 Gradio演示
📊 数据集评估
请查看evaluation
文件夹。
🤝 贡献
- 欢迎提交问题和拉取请求。
- 欢迎优化推理速度和内存使用,例如通过模型量化、蒸馏或其他加速技术。
📜 引用
如果您觉得这项工作有帮助,请考虑引用:
@misc{xu2025geometrycrafterconsistentgeometryestimation,
title={GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors},
author={Tian-Xing Xu and Xiangjun Gao and Wenbo Hu and Xiaoyu Li and Song-Hai Zhang and Ying Shan},
year={2025},
eprint={2504.01016},
archivePrefix={arXiv},
primaryClass={cs.GR},
url={https://arxiv.org/abs/2504.01016},
}