模型介绍
内容详情
替代品
模型简介
Shap-E是一种条件生成模型,能够直接生成隐式函数的参数,这些参数可渲染为带纹理的网格和神经辐射场。它支持从文本或图像生成3D内容。
模型特点
多表示输出
直接生成隐式函数的参数,可渲染为带纹理的网格和神经辐射场。
快速生成
能在几秒内生成复杂多样的3D资源。
两阶段训练
先训练编码器将3D资源映射到隐式函数参数,再训练条件扩散模型。
模型能力
文本生成3D
图像生成3D
生成带纹理的网格
生成神经辐射场
使用案例
3D内容创作
从文本生成3D模型
根据文本提示快速生成3D模型资源。
可生成复杂多样的3D资源
从2D图像生成3D模型
将2D图像转换为3D模型。
示例中展示了将柯基犬图片转换为3D模型的效果
许可协议: MIT
标签:
- 图像生成图像
- 文本生成3D
- 扩散模型
- Shap-E
Shap-E
Shap-E提出了一种扩散过程,能够根据文本提示生成3D图像。该技术由OpenAI的Heewoo Jun和Alex Nichol在论文《Shap-E: 生成条件式3D隐式函数》中提出(论文链接)。
Shap-E的原始代码库请访问:https://github.com/openai/shap-e。
Shap-E的作者未编写此模型卡片,他们提供了单独的模型卡片此处。
简介
Shap-E论文摘要:
我们提出了Shap-E,一个用于生成3D资源的条件生成模型。与近期其他生成单一输出表示的3D生成模型不同,Shap-E直接生成隐式函数的参数,这些参数可渲染为带纹理的网格和神经辐射场。我们分两阶段训练Shap-E:首先,训练一个编码器,将3D资源确定性地映射到隐式函数的参数;其次,在编码器输出上训练一个条件扩散模型。当在大规模3D与文本配对数据集上训练后,我们的模型能在几秒内生成复杂多样的3D资源。与基于点云的显式生成模型Point-E相比,Shap-E收敛更快,在更高维、多表示输出空间中实现了相当或更优的样本质量。我们在此链接发布了模型权重、推理代码及样本。
发布的检查点
作者发布了以下检查点:
- openai/shap-e:根据文本输入提示生成3D图像
- openai/shap-e-img2img:从合成2D图像生成3D图像样本
🧨 diffusers中的使用示例
首先确保安装所有依赖项:
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee
安装完成后,使用以下代码:
import torch
from diffusers import ShapEImg2ImgPipeline
from diffusers.utils import export_to_gif, load_image
ckpt_id = "openai/shap-e-img2img"
pipe = ShapEImg2ImgPipeline.from_pretrained(repo).to("cuda")
img_url = "https://hf.co/datasets/diffusers/docs-images/resolve/main/shap-e/corgi.png"
image = load_image(img_url)
generator = torch.Generator(device="cuda").manual_seed(0)
batch_size = 4
guidance_scale = 3.0
images = pipe(
image,
num_images_per_prompt=batch_size,
generator=generator,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
output_type="pil"
).images
gif_path = export_to_gif(images, "corgi_sampled_3d.gif")