语言:
- 英文
标签:
- 稳定扩散
- 稳定扩散扩散器
- 文本到图像
模型索引:
- 名称: ldm3d
结果:
- 任务:
名称: 3D潜在扩散模型
类型: 3D潜在扩散模型
数据集:
名称: LAION-400M
类型: laion/laion400m
指标:
- 名称: FID
类型: FID
值: 27.82
- 名称: IS
类型: IS
值: 28.79
- 名称: CLIP
类型: CLIP
值: 26.61
- 名称: AbsRel
类型: AbsRel
值: 0.0911
- 名称: RMSE [米]
类型: RMSE-m
值: 0.334
管道标签: 文本到3D
许可证: creativeml-openrail-m
LDM3D模型
LDM3D模型由Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller和Vasudev Lal在论文LDM3D: 3D潜在扩散模型中提出。
LDM3D被2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)接受。
为了获得更好的效果,请毫不犹豫地使用我们基于稍不同架构的新检查点ldm3d-4c。
以下新的LDM3D模型检查点已发布:
模型详情
论文摘要如下:
本研究提出了一种3D潜在扩散模型(LDM3D),可从给定文本提示生成图像和深度图数据,允许用户从文本提示生成RGBD图像。LDM3D模型在包含RGB图像、深度图和标题的元组数据集上进行了微调,并通过大量实验验证。我们还开发了一个名为DepthFusion的应用程序,使用img2img管道在TouchDesigner中创建沉浸式和交互式的360度视图体验。这项技术有潜力改变从娱乐和游戏到建筑和设计等多个行业。总体而言,本文对生成式AI和计算机视觉领域做出了重要贡献,并展示了LDM3D和DepthFusion在革新内容创作和数字体验方面的潜力。
LDM3D概述取自LDM3D论文。
使用方法
您可以使用此模型根据文本提示生成RGB图像和深度图。
方法的简要视频可在此链接找到,VR演示可在这里观看。
演示也可在Spaces上访问。
以下是如何在PyTorch中使用此模型在CPU和GPU架构上获取给定文本的特征:
from diffusers import StableDiffusionLDM3DPipeline
pipe = StableDiffusionLDM3DPipeline.from_pretrained("Intel/ldm3d")
pipe.to("cpu")
pipe.to("cuda")
prompt = "桌子上的几个柠檬的图片"
name = "lemons"
output = pipe(prompt)
rgb_image, depth_image = output.rgb, output.depth
rgb_image[0].save(name+"_ldm3d_rgb.jpg")
depth_image[0].save(name+"_ldm3d_depth.png")
这是结果:

训练数据
LDM3D模型在从LAION-400M数据集的子集构建的数据集上进行了微调,LAION-400M是一个包含超过4亿图像-标题对的大规模图像-标题数据集。
微调
微调过程包括两个阶段。在第一阶段,我们训练一个自动编码器以生成低维、感知等效的数据表示。随后,我们使用冻结的自动编码器微调扩散模型。
评估结果
定量结果
下表显示了在512 x 512大小的MS-COCO数据集上使用50步DDIM的文本条件图像合成的定量结果。
方法 |
FID ↓ |
IS ↑ |
CLIP ↑ |
SD v1.4 |
28.08 |
34.17 ± 0.76 |
26.13 ± 2.81 |
SD v1.5 |
27.39 |
34.02 ± 0.79 |
26.13 ± 2.79 |
LDM3D (我们的) |
27.82 |
28.79 ± 0.49 |
26.61 ± 2.92 |
我们的模型与具有相同参数数量(1.06B)的稳定扩散模型相当。IS和CLIP相似度得分是在MS-COCO数据集的30k标题上平均的。
下表显示了深度评估结果,比较了LDM3D和DPT-Large与作为参考模型的ZoeDepth-N。
方法 |
AbsRel |
RMSE [米] |
LDM3D |
0.0911 |
0.334 |
DPT-Large |
0.0779 |
0.297 |
上述结果可在LDM3D论文的表1和表2中参考。
定性结果
下图显示了一些定性结果,将我们的方法与Stable Diffusion v1.4和DPT-Large的深度图进行了比较。
。
伦理考量和限制
对于图像生成,适用Stable Diffusion的限制和偏见。对于深度图生成,第一个限制是我们使用DPT-large生成地面真实值,因此,DPT的其他限制和偏见也适用。
注意事项和建议
用户(直接和下游)应了解模型的风险、偏见和限制。
以下是了解英特尔AI软件的几个有用链接:
免责声明
本模型的许可证不构成法律建议。我们对使用此模型的第三方的行为不负责。在将此模型用于商业用途之前,请咨询律师。
BibTeX条目和引用信息
@misc{stan2023ldm3d,
title={LDM3D: 3D潜在扩散模型},
author={Gabriela Ben Melech Stan and Diana Wofk and Scottie Fox and Alex Redden and Will Saxton and Jean Yu and Estelle Aflalo and Shao-Yen Tseng and Fabio Nonato and Matthias Muller and Vasudev Lal},
year={2023},
eprint={2305.10853},
archivePrefix={arXiv},
primaryClass={cs.CV}
}