⚠️ 提示
如果遇到此类失败案例,请尝试使用不同的种子重新生成!
-
我们的基础模型FLUX本身并不支持广泛的风格,因此我们的数据集中很大一部分涉及风格转换。因此,模型有时可能会莫名其妙地改变您的艺术风格。
-
我们的训练数据集主要针对真实图像。对于非真实图像,如动漫或模糊图片,编辑的成功率会下降,并可能影响最终的图像质量。
-
虽然添加对象、修改颜色属性、应用风格转换和更改背景的成功率较高,但由于OmniEdit移除数据集的质量较低,对象移除的成功率相对较低。
当前模型是论文实验中使用的模型,仅使用4块A800 GPU(总batch_size
= 2 x 2 x 4 = 16)训练。未来,我们将增强数据集并进行扩展,最终发布一个更强大的模型。
待办事项
- [x] 推理代码
- [ ] 使用VLM进行推理时扩展
- [x] 预训练权重
- [ ] 更多推理演示
- [x] Gradio演示
- [ ] Comfy UI演示
- [ ] 训练代码
🎆 新闻
- [2025/4/30] 🔥 我们发布了Huggingface演示 🤗!快来试试吧!
- [2025/4/30] 🔥 我们在Huggingface 🤗上发布了推理代码和预训练权重!
- [2025/4/30] 🔥 我们在arXiv上发布了论文!
- [2025/4/29] 我们发布了项目主页和演示视频!代码将于下周发布~ 劳动节快乐!
💼 安装
Conda环境设置
conda create -n icedit python=3.10
conda activate icedit
pip install -r requirements.txt
pip install -U huggingface_hub
下载预训练权重
如果您可以连接到Huggingface,则无需下载权重。否则,您需要将权重下载到本地。
在bash中推理(无VLM推理时扩展)
现在您可以尝试了!
我们的模型只能编辑宽度为512像素的图像(高度无限制)。如果您传入宽度不是512像素的图像,模型会自动将其调整为512像素。
如果发现模型未能生成预期结果,请尝试更改--seed
参数。使用VLM进行推理时扩展可以显著改善结果。
python scripts/inference.py --image assets/girl.png \
--instruction "将她的头发变成深绿色,衣服变成格子图案。" \
--seed 42 \
编辑一张512×768的图像需要35 GB的GPU内存。如果您需要在24 GB GPU内存的系统(例如NVIDIA RTX3090)上运行,可以添加--enable-model-cpu-offload
参数。
python scripts/inference.py --image assets/girl.png \
--instruction "将她的头发变成深绿色,衣服变成格子图案。" \
--enable-model-cpu-offload
如果您已将预训练权重下载到本地,请在推理时传递参数,例如:
python scripts/inference.py --image assets/girl.png \
--instruction "将她的头发变成深绿色,衣服变成格子图案。" \
--flux-path /path/to/flux.1-fill-dev \
--lora-path /path/to/ICEdit-MoE-LoRA
在Gradio演示中推理
我们提供了一个gradio演示,以便您以更友好的方式编辑图像。您可以运行以下命令启动演示。
python scripts/gradio_demo.py --port 7860
与推理脚本类似,如果您想在24 GB GPU内存的系统上运行演示,可以添加--enable-model-cpu-offload
参数。如果您已将预训练权重下载到本地,请在推理时传递参数,例如:
python scripts/gradio_demo.py --port 7860 \
--flux-path /path/to/flux.1-fill-dev (可选) \
--lora-path /path/to/ICEdit-MoE-LoRA (可选) \
--enable-model-cpu-offload (可选) \
然后您可以在浏览器中打开链接编辑图像。
🎨 享受您的编辑吧!