🚀 LLaMA-Mesh:用语言模型统一3D网格生成
本项目探索了如何扩展在文本上预训练的大语言模型(LLMs)的能力,以在统一模型中生成3D网格。它利用了LLMs中已有的空间知识,并实现了对话式3D生成和网格理解。
论文 | 项目页面
LLaMA-Mesh的预训练模型权重:用语言模型统一3D网格生成
王振义,乔纳森·洛林,王艺凯,苏航,朱军,桑贾·菲德勒,曾晓辉
摘要
本工作探索了扩展在文本上预训练的大语言模型(LLMs)的能力,以在统一模型中生成3D网格。这具有两个关键优势:(1)利用LLMs中已经嵌入的空间知识,这些知识来自3D教程等文本来源;(2)实现对话式3D生成和网格理解。主要挑战是将3D网格数据有效地标记为LLMs可以无缝处理的离散标记。为了解决这个问题,我们引入了LLaMA-Mesh,这是一种新颖的方法,它将3D网格的顶点坐标和面定义表示为纯文本,允许直接与LLMs集成而无需扩展词汇表。我们构建了一个监督微调(SFT)数据集,使预训练的LLMs能够:(1)从文本提示生成3D网格;(2)根据需要生成交错的文本和3D网格输出;(3)理解和解释3D网格。我们的工作首次证明了LLMs可以通过微调以基于文本的格式获取复杂的空间知识,用于3D网格生成,有效地统一了3D和文本模态。LLaMA-Mesh在保持强大的文本生成性能的同时,实现了与从头训练的模型相当的网格生成质量。
✨ 主要特性
- 统一模态:将3D和文本模态统一,利用LLMs中的空间知识进行3D网格生成。
- 对话式生成:支持对话式3D生成和网格理解。
- 高效集成:通过将3D网格数据表示为纯文本,直接与LLMs集成,无需扩展词汇表。
📚 详细文档
方法
我们方法的概述。LLaMA-Mesh通过将3D网格的顶点坐标和面部定义的数值表示为纯文本,以统一的格式统一了文本和3D网格。我们的模型使用文本和3D交错数据以端到端的方式进行训练。因此,我们的模型可以在统一的模型中生成文本和3D网格。

模型开发者
基础模型权重来自Meta,由Nvidia进行微调。
第三方社区考虑
此模型并非由NVIDIA拥有或开发。该模型是为满足第三方对此应用和用例的需求而开发和构建的;请参阅非NVIDIA Llama 3.1模型卡片。
许可证/使用条款
此模型LLaMA-Mesh根据以下许可证分发:
- NSCLv1许可证:LLaMA-Mesh模型根据NSCLv1许可证授权,仅允许非商业使用。详情请参考
LICENSE.txt
文件。
- Llama 3.1社区许可协议:此模型包含Llama 3.1技术的组件,该技术根据Llama 3.1社区许可协议授权。Llama 3.1材料的再分发和使用必须遵守本协议的条款。完整详情请参阅
LLAMA_LICENSE.txt
文件。
归属声明
根据Llama 3.1社区许可协议的要求,此模型使用Llama 3.1技术构建。所需的归属声明为:“使用Llama构建”。
参考资料
Llama 3.1 GitHub
模型架构
属性 |
详情 |
架构类型 |
Transformer |
网络架构 |
Llama 3.1 |
输入
属性 |
详情 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
一维 |
其他输入相关属性 |
最大令牌长度8k |
输出
属性 |
详情 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
一维 |
其他输出相关属性 |
最大令牌长度8k |
支持的硬件微架构兼容性
支持的操作系统
模型版本
Llama 3.1 8B mesh
训练数据集
请参考Llama 3.1模型卡片获取训练、测试和评估数据集的信息。
数据是通过将Objaverse网格数据转换为文本字符串(格式为顶点索引、面索引作为字符串)进行整理的。该模型在整理后的数据集上使用32个GPU进行微调。
Objaverse
属性 |
详情 |
数据收集方法 |
未知 |
标注方法 |
未知 |
数据特性 |
使用30k网格数据,是Objaverse的一个子集。通过面的数量过滤Objaverse数据集,仅保留面数少于500的形状,并保存为obj文件格式。 |
数据集许可证 |
整个数据集的使用根据ODC-By v1.0许可证授权。 |
推理
属性 |
详情 |
推理引擎 |
Pytorch |
测试硬件 |
A100 |
伦理考虑
NVIDIA认为可信AI是一项共同责任,我们已经制定了政策和实践,以支持广泛的AI应用开发。当按照我们的服务条款下载或使用时,开发者应与他们的内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
请在此报告安全漏洞或NVIDIA AI相关问题。
BibTeX
@misc{wang2024llamameshunifying3dmesh,
title={LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models},
author={Zhengyi Wang and Jonathan Lorraine and Yikai Wang and Hang Su and Jun Zhu and Sanja Fidler and Xiaohui Zeng},
year={2024},
eprint={2411.09595},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2411.09595},
}
📄 许可证
本项目使用的许可证为llama3.1相关许可证,具体如下:
- NSCLv1许可证:LLaMA-Mesh模型根据NSCLv1许可证授权,仅允许非商业使用。详情请参考
LICENSE.txt
文件。
- Llama 3.1社区许可协议:此模型包含Llama 3.1技术的组件,该技术根据Llama 3.1社区许可协议授权。Llama 3.1材料的再分发和使用必须遵守本协议的条款。完整详情请参阅
LLAMA_LICENSE.txt
文件。