模型介绍
内容详情
替代品
模型简介
Shap-E是一种条件式生成模型,通过两阶段训练过程直接生成3D隐式函数参数,支持从文本或图像生成复杂多样的3D内容。
模型特点
多表示输出
直接生成可渲染为纹理网格和神经辐射场的隐式函数参数,支持多种3D表示形式。
高效生成
相比基于点云的显式生成模型Point-E,收敛更快且能达到相当或更优的样本质量。
条件生成
支持通过文本提示或输入图像作为条件生成3D内容,具有高度可控性。
模型能力
文本生成3D模型
图像到3D转换
生成纹理网格
生成神经辐射场
使用案例
3D内容创作
游戏资产生成
根据文本描述快速生成游戏中的3D模型和场景元素。
可在数秒内生成复杂多样的3D资产
产品设计原型
通过自然语言描述快速生成产品设计的3D原型。
教育可视化
科学概念演示
将抽象的科学概念转化为直观的3D可视化模型。
license: mit tags:
- 文本生成图像
- shap-e
- diffusers pipeline_tag: 文本生成3D
Shap-E
Shap-E提出了一种扩散过程,能够根据文本提示生成3D图像。该技术由OpenAI的Heewoo Jun和Alex Nichol在论文Shap-E: Generating Conditional 3D Implicit Functions中首次提出。
Shap-E的原始代码库位于: https://github.com/openai/shap-e。
Shap-E的作者并非本模型卡片的撰写者。他们提供了独立的模型卡片此处。
简介
Shap-E论文摘要:
我们提出Shap-E——一个用于生成3D资产的条件式生成模型。与当前多数产出单一输出表示的3D生成模型不同,Shap-E直接生成可渲染为纹理网格和神经辐射场的隐式函数参数。我们采用两阶段训练:首先训练将3D资产确定性映射为隐式函数参数的编码器;随后在编码器输出上训练条件扩散模型。当在大量3D与文本配对数据上训练后,我们的模型能在数秒内生成复杂多样的3D资产。与基于点云的显式生成模型Point-E相比,Shap-E收敛更快,在建模更高维、多表示输出空间的情况下仍能达到相当或更优的样本质量。我们在此链接公开了模型权重、推理代码和样本。
已发布检查点
作者发布了以下检查点:
- openai/shap-e:根据文本输入生成3D图像
- openai/shap-e-img2img:从合成2D图像采样生成3D图像
🧨 diffusers使用示例
首先确保安装所有依赖:
pip install transformers accelerate -q
pip install git+https://github.com/huggingface/diffusers@@shap-ee
安装完成后,使用以下代码:
import torch
from diffusers import ShapEPipeline
from diffusers.utils import export_to_gif
ckpt_id = "openai/shap-e"
pipe = ShapEPipeline.from_pretrained(repo).to("cuda")
guidance_scale = 15.0
prompt = "鲨鱼"
images = pipe(
prompt,
guidance_scale=guidance_scale,
num_inference_steps=64,
size=256,
).images
gif_path = export_to_gif(images, "shark_3d.gif")