开源Show-o2-7B多模态模型 - 免费支持文图视频统一理解与生成

首页

Show O2 7B

由 showlab 开发

Show-o2 是一个改进的原生统一多模态模型，利用自回归建模和流匹配技术，支持文本、图像和视频模态的统一理解和生成。

文本生成图像开源协议:Apache-2.0 #多模态统一建模 #自回归流匹配 #3D因果VAE

下载量 198

发布时间 : 6/5/2025

模型简介

Show-o2 基于 3D 因果变分自编码器空间，通过空间（-时间）融合的双路径构建统一的视觉表示，能够在图像和视频模态间实现可扩展性，同时确保有效的多模态理解和生成。

模型特点

统一多模态学习

在文本令牌和 3D 因果 VAE 空间上进行多模态理解和生成的统一学习，支持文本、图像和视频模态。

空间（-时间）融合的双路径

通过双路径构建统一的视觉表示，适应多模态理解和生成的不同特征依赖。

自回归建模和流匹配

采用自回归建模和流匹配的特定头部，用于多模态理解、图像/视频和混合模态生成的整体统一学习。

模型能力

文本生成

图像生成

视频生成

多模态理解

图像描述生成

视觉问答

使用案例

多模态理解

图像描述生成

根据输入的图像生成详细的描述文本。

可以生成高质量的图像描述，适用于图像标注和内容理解。

视觉问答

回答关于图像内容的自然语言问题。

能够准确回答关于图像内容的复杂问题。

多模态生成

文本到图像生成

根据文本描述生成高质量的图像。

生成的图像具有高分辨率和良好的视觉质量。

文本到视频生成

根据文本描述生成视频内容。

生成的视频内容连贯且符合文本描述。

🚀 Show - o2：改进的统一多模态模型

本文介绍了改进的原生统一多模态模型 Show - o2，它利用自回归建模和流匹配技术。该模型基于 3D 因果变分自编码器空间，通过空间（-时间）融合的双路径构建统一的视觉表示，能够在图像和视频模态间实现可扩展性，同时确保有效的多模态理解和生成。

谢金衡¹ 杨振衡² 郑守 Mike¹

¹ 秀实验室，新加坡国立大学 ² 字节跳动

📚 摘要

本文提出了改进的原生统一多模态模型 Show - o2，它利用自回归建模和流匹配技术。该模型基于 3D 因果变分自编码器空间，通过空间（-时间）融合的双路径构建统一的视觉表示，从而实现跨图像和视频模态的可扩展性，同时确保有效的多模态理解和生成。基于语言模型，自回归建模和流匹配分别应用于语言头和流头，以促进文本令牌预测和图像/视频生成。设计了两阶段训练方案，以有效地学习并扩展到更大的模型。最终的 Show - o2 模型在处理包括文本、图像和视频等多种模态的广泛多模态理解和生成任务中展现出了通用性。代码和模型已在该 https URL 发布。

🆕 Show - o2 的创新点

我们在文本令牌和 3D 因果 VAE 空间上进行多模态理解和生成的统一学习，该空间对 文本、图像和视频模态 具有可扩展性。提出了空间（-时间）融合的双路径，以适应多模态理解和生成的不同特征依赖。我们采用具有 自回归建模和流匹配 的特定头部，用于 多模态理解、图像/视频和混合模态生成 的整体统一学习。

📦 预训练模型权重

Show - o2 的检查点可以在 Hugging Face 上找到：

🚀 快速开始

环境搭建

首先，设置环境：

bash build_env.sh

在你的机器或服务器上登录你的 wandb 账户：

wandb login <你的 wandb 密钥>

从这里下载 Wan2.1 3D 因果 VAE 模型权重，并将其放在当前目录。

多模态理解演示

你可以在 wandb 上查看结果：

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='详细描述这张图片。'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='请告诉我图片中写着什么？'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='这张图片中有多少个牛油果（包括切开的）？请详细告诉我如何制作牛油果奶昔。'

文本到图像生成演示

你可以在 wandb 上查看结果：

python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
         
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
                                      
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

📖 引用

如需引用本文和模型，请使用以下 BibTeX：

@article{xie2025showo2,
  title={Show - o2: Improved Native Unified Multimodal Models},
  author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
  journal={arXiv preprint},
  year={2025}
}