V

VGGT 1B

由 facebook 开发
VGGT是一种前馈神经网络,能够直接从场景的一个、几个或数百个视图中,在数秒内推断出所有关键的3D属性。
下载量 196.31k
发布时间 : 3/11/2025
模型介绍
内容详情
替代品

模型简介

视觉几何基础Transformer(VGGT)是一种能够从单视图或多视图中快速推断3D属性的神经网络,包括相机参数、点云图、深度图和3D点轨迹。

模型特点

多视图3D重建
能够从单视图或多视图中快速推断3D属性
快速推理
在数秒内完成3D属性推断
全面3D属性输出
可同时输出相机参数、点云图、深度图和3D点轨迹

模型能力

3D场景重建
相机参数估计
深度图生成
点云生成
3D点轨迹预测

使用案例

计算机视觉
增强现实
快速从2D图像生成3D场景用于AR应用
机器人导航
为机器人提供环境3D理解能力
影视制作
快速3D场景建模
从拍摄素材快速生成3D场景模型