X2I开源多模态转换模型 - 免费将文本、音视频等转成高质量图像

X2I

由 OPPOer 开发

X2I是一个多模态扩散Transformer模型，能够将多种输入模态（文本、图像、视频、音频、语音）转换为图像输出。

下载量 435

发布时间 : 3/15/2025

模型简介

X2I通过注意力蒸馏技术将多模态理解能力集成到扩散Transformer中，支持从文本、图像、视频、音频和语音等多种输入模态生成图像。

多模态输入支持

支持文本、图像、视频、音频和语音等多种输入模态转换为图像

注意力蒸馏技术

通过注意力蒸馏将多模态理解能力无缝集成到扩散Transformer中

多语言支持

支持多种语言的文本输入

文本到图像生成

多图像到图像转换

视频到图像转换

文本图像到图像转换

音频到图像转换

语音到图像转换

创意设计

概念艺术生成

根据文本描述生成概念艺术作品

快速生成高质量的概念艺术图像

产品设计可视化

将产品描述转换为可视化设计图

加速产品设计流程

多媒体处理

视频关键帧提取

从视频中提取关键帧并转换为艺术风格图像

生成具有艺术风格的视频摘要

音频可视化

将音频转换为视觉表示

创建音乐可视化艺术作品

属性	详情
基础模型	black-forest-labs/FLUX.1-dev、OpenGVLab/InternVL2_5-1B、OpenGVLab/InternVL2_5-4B、openbmb/MiniCPM-o-2_6、Qwen/Qwen2.5-7B-Instruct、Qwen/Qwen2.5-3B-Instruct
支持语言	多语言
许可证	apache-2.0
库名称	diffusers
任务标签	any-to-image
标签	flux.1、minicpm-o、qwenvl、internvl、text-to-image、multi-image-to-image、video-to-image、text_image-to-image、audio-to-image、speech-to-image