S

Show O2 7B

由 showlab 开发
Show-o2 是一个改进的原生统一多模态模型,利用自回归建模和流匹配技术,支持文本、图像和视频模态的统一理解和生成。
下载量 198
发布时间 : 6/5/2025

模型简介

Show-o2 基于 3D 因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,能够在图像和视频模态间实现可扩展性,同时确保有效的多模态理解和生成。

模型特点

统一多模态学习
在文本令牌和 3D 因果 VAE 空间上进行多模态理解和生成的统一学习,支持文本、图像和视频模态。
空间(-时间)融合的双路径
通过双路径构建统一的视觉表示,适应多模态理解和生成的不同特征依赖。
自回归建模和流匹配
采用自回归建模和流匹配的特定头部,用于多模态理解、图像/视频和混合模态生成的整体统一学习。

模型能力

文本生成
图像生成
视频生成
多模态理解
图像描述生成
视觉问答

使用案例

多模态理解
图像描述生成
根据输入的图像生成详细的描述文本。
可以生成高质量的图像描述,适用于图像标注和内容理解。
视觉问答
回答关于图像内容的自然语言问题。
能够准确回答关于图像内容的复杂问题。
多模态生成
文本到图像生成
根据文本描述生成高质量的图像。
生成的图像具有高分辨率和良好的视觉质量。
文本到视频生成
根据文本描述生成视频内容。
生成的视频内容连贯且符合文本描述。
AIbase
智启未来,您的人工智能解决方案智库
简体中文