🚀 Flux-GArt-LoRA
Flux-GArt-LoRA是一个用于图像生成的模型,可根据文本描述生成特定场景的图像。目前该模型仍处于训练阶段,最终效果值得期待。
🚀 快速开始
安装与配置
import torch
from pipelines import DiffusionPipeline
base_model = "black-forest-labs/FLUX.1-dev"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)
lora_repo = "prithivMLmods/Flux-GArt-LoRA"
trigger_word = "GArt"
pipe.load_lora_weights(lora_repo)
device = torch.device("cuda")
pipe.to(device)
触发图像生成
你应该使用 GArt
来触发图像生成。
下载模型
此模型的权重以Safetensors格式提供。
点击下载(在“文件与版本”选项卡中)。
✨ 主要特性
- 支持文本到图像的生成,能根据详细的文本描述生成对应场景的图像。
- 提供了丰富的图像生成示例,如沙漠中骑马的人、沙滩上的橙色货车、棒球场等场景。
📦 安装指南
请参考上述“快速开始”部分的代码示例进行安装和配置。
💻 使用示例
基础用法
import torch
from pipelines import DiffusionPipeline
base_model = "black-forest-labs/FLUX.1-dev"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)
lora_repo = "prithivMLmods/Flux-GArt-LoRA"
trigger_word = "GArt"
pipe.load_lora_weights(lora_repo)
device = torch.device("cuda")
pipe.to(device)
text = f"{trigger_word}, a man in a blue jacket and blue jeans is riding a brown horse down a dirt road in the middle of a desert."
image = pipe(text).images[0]
image.save("generated_image.png")
高级用法
import torch
from pipelines import DiffusionPipeline
base_model = "black-forest-labs/FLUX.1-dev"
pipe = DiffusionPipeline.from_pretrained(base_model, torch_dtype=torch.bfloat16)
lora_repo = "prithivMLmods/Flux-GArt-LoRA"
trigger_word = "GArt"
pipe.load_lora_weights(lora_repo)
device = torch.device("cuda")
pipe.to(device)
text = f"{trigger_word}, a man in a blue jacket and blue jeans is riding a brown horse down a dirt road in the middle of a desert."
num_images = 3
images = pipe(text, num_images_per_prompt=num_images).images
for i, image in enumerate(images):
image.save(f"generated_image_{i}.png")
📚 详细文档
模型描述
prithivMLmods/Flux-GArt-LoRA
属性 |
详情 |
基础模型 |
black-forest-labs/FLUX.1-dev |
触发词 |
GArt |
模型类型 |
LoRA(Low-Rank Adaptation) |
标签方式 |
florence2-en(自然语言 & 英语) |
训练使用的总图像数 |
14 |
图像处理参数
参数 |
值 |
参数 |
值 |
学习率调度器 |
constant |
噪声偏移 |
0.03 |
优化器 |
AdamW |
多分辨率噪声折扣 |
0.1 |
网络维度 |
64 |
多分辨率噪声迭代次数 |
10 |
网络阿尔法值 |
32 |
重复次数 & 步数 |
15 & 2500 |
训练轮数 |
10 |
每N轮保存一次 |
1 |
最佳尺寸
- 768 x 1024(最佳)
- 1024 x 1024(默认)
📄 许可证
本模型采用creativeml-openrail-m许可证。
⚠️ 重要提示
该模型仍处于训练阶段,这不是最终版本,可能会包含瑕疵,并且在某些情况下表现不佳。