K

Kandinsky 2 2 Decoder

由 kandinsky-community 开发
康定斯基2.2是基于Dall-E 2和潜在扩散模型最佳实践的文本生成图像模型,采用CLIP作为文本与图像编码器,提升了视觉表现力。
下载量 15.44k
发布时间 : 6/9/2023
模型介绍
内容详情
替代品

模型简介

该模型结合了CLIP多模态潜在空间的扩散图像先验技术,支持文本生成图像、文本引导的图像到图像生成及图像插值等功能。

模型特点

多模态潜在空间映射
采用CLIP作为文本与图像编码器,在CLIP多模态潜在空间之间建立扩散图像先验关系
高分辨率支持
支持512x512至1536x1536多种分辨率及任意宽高比训练,可生成1024x1024任意比例输出
图像融合与编辑
创新的图像插值功能,支持文本和图像条件的权重混合

模型能力

文本生成图像
文本引导的图像到图像生成
图像插值

使用案例

创意设计
肖像生成
根据文本描述生成具有特定特征的肖像画
示例生成'蓝色眼眸女性肖像',具有电影质感
场景创作
将简单草图转化为奇幻景观
将山脉草图转化为'电影级光影的奇幻景观'
艺术创作
风格融合
将不同图像风格进行插值融合
示例展示猫的图片与梵高星空画的风格融合