🚀 Show - o2:改进的统一多模态模型
本文介绍了改进的原生统一多模态模型 Show - o2,它利用自回归建模和流匹配技术。该模型基于 3D 因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,能够在图像和视频模态间实现可扩展性,同时确保有效的多模态理解和生成。
📚 摘要
本文提出了改进的原生统一多模态模型 Show - o2,它利用自回归建模和流匹配技术。该模型基于 3D 因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,从而实现跨图像和视频模态的可扩展性,同时确保有效的多模态理解和生成。基于语言模型,自回归建模和流匹配分别应用于语言头和流头,以促进文本令牌预测和图像/视频生成。设计了两阶段训练方案,以有效地学习并扩展到更大的模型。最终的 Show - o2 模型在处理包括文本、图像和视频等多种模态的广泛多模态理解和生成任务中展现出了通用性。代码和模型已在该 https URL 发布。
🆕 Show - o2 的创新点
我们在文本令牌和 3D 因果 VAE 空间上进行多模态理解和生成的统一学习,该空间对 文本、图像和视频模态 具有可扩展性。提出了空间(-时间)融合的双路径,以适应多模态理解和生成的不同特征依赖。我们采用具有 自回归建模和流匹配 的特定头部,用于 多模态理解、图像/视频和混合模态生成 的整体统一学习。

📦 预训练模型权重
Show - o2 的检查点可以在 Hugging Face 上找到:
🚀 快速开始
环境搭建
首先,设置环境:
bash build_env.sh
在你的机器或服务器上登录你的 wandb 账户:
wandb login <你的 wandb 密钥>
从 这里 下载 Wan2.1 3D 因果 VAE 模型权重,并将其放在当前目录。
多模态理解演示
你可以在 wandb 上查看结果:
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='详细描述这张图片。'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='请告诉我图片中写着什么?'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='这张图片中有多少个牛油果(包括切开的)?请详细告诉我如何制作牛油果奶昔。'
文本到图像生成演示
你可以在 wandb 上查看结果:
python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
📖 引用
如需引用本文和模型,请使用以下 BibTeX:
@article{xie2025showo2,
title={Show - o2: Improved Native Unified Multimodal Models},
author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
journal={arXiv preprint},
year={2025}
}
🙏 致谢
本工作主要基于 Show - o。
📄 许可证
本项目采用 Apache - 2.0 许可证。