许可协议:apache-2.0
任务类型:文本生成图像
推理支持:否
Kandinsky-3:文生图扩散模型

文章 | 在线生成 | Telegram机器人 | [报告]
模型描述:
Kandinsky 3.0是基于Kandinsky2-x模型系列开发的开源文生图扩散模型。相较于前代版本,Kandinsky 3.0融合了更多与俄罗斯文化相关的数据,使其能够生成具有俄罗斯文化特色的图像。此外,通过分别增大文本编码器和扩散U-Net模型的规模,显著提升了模型的文本理解能力与视觉生成质量。
更多信息(包括训练细节和生成示例)请参阅我们的专题文章。英文版本将于近日发布。
架构详解:

模型架构包含三大组件:
- 文本编码器Flan-UL2(编码器部分)- 86亿参数
- 潜在扩散U-Net - 30亿参数
- MoVQ编码器/解码器 - 2.67亿参数
发布模型
我们开源了两个模型:
- 基础版:文生图基础模型,在400张A100显卡上训练超过200万步
- 修复版:图像修复专用模型,基于基础版最终检查点初始化,在300张A100显卡上训练25万步
安装指南
请确保安装最新版diffusers
以及Transformers和Accelerate:
pip install git+https://github.com/huggingface/diffusers.git
pip install --upgrade transformers accelerate
使用教程
(待完善)
文本生成图像
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
prompt = "地铁车厢内部的照片。座椅上坐着几只浣熊,其中一只正在看报纸,车窗外是城市背景。"
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]
图像引导生成
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()
prompt = "描绘地铁车厢内部的水彩画,内有微型浣熊。"
image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/kandinsky3/t2i.png")
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(prompt, image=image, strength=0.75, num_inference_steps=25, generator=generator).images[0]
生成示例
 |
 |
 |
 |
"阿尔丰斯·慕夏风格的钩针编织艺术,展现户外美景的风景画" |
"绚丽的凤凰,宇宙主题,暗黑史诗感,电影级月光星辰,高清质感,克劳德·莫奈风格" |
"丹麦峡湾边的黄色小屋,Eiko Ojala与Ingrid Baars混合风格,山景海报,乔治·奥特式现实主义细节,黑白灰暗调4K画质" |
"火龙果头部特写,上半身写实插图,Joshua Hoffine与诺曼·洛克威尔恐怖风格,生物骇客未来主义,扎哈·哈迪德建筑美学" |
 |
 |
 |
 |
"惊艳的可爱草莓角色动态造型,超现实奇幻花园背景,大师级获奖摄影作品,柔和自然光,3D渲染,Blender+Octane引擎,移轴深景效果,缤纷色彩" |
"梦幻沙漠奇观,空中沙浪与银河交融,星辰宇宙主义数字艺术8K" |
"野马跑车电影海报,Alessandro Gottardo风格,青金配色,Gerald Harvey Jones式反光,工业城市场景精细插画" |
"蓝天红唇拼贴艺术,寺山修司梦幻超现实风格,昭和时代精品电影质感,镜面细节" |
开发团队