Sdart Synesthesia

S

Sdart Synesthesia

由 Guizmus 开发

这是一个基于Stable Diffusion 1.5的文本生成图像模型，专注于表现联觉（感官混合）的艺术效果。

图像生成英语开源协议:Openrail #感官融合艺术 #联觉可视化 #多感官图像生成

下载量 21

发布时间 : 4/9/2023

模型简介

该模型旨在捕捉联觉（感官异常混合）的视觉表现，允许用户探索声音、色彩和质感在图像中的交汇效果。

模型特点

联觉艺术表现

专门设计用于表现联觉现象，将多种感官体验融合为视觉艺术

社区创作整合

整合了Stable Diffusion Discord社区'每周图片'比赛的39个参赛作品

低学习率训练

采用较低学习率训练，避免简单复制原始创作，保留多样性

模型能力

文本生成图像

图像生成图像

艺术创作

联觉效果可视化

使用案例

艺术创作

联觉艺术生成

将声音、味道等非视觉感官体验转化为视觉艺术作品

产生富有想象力的联觉效果图像

概念艺术创作

为音乐、文学等艺术作品创作配套视觉内容

实现跨感官的艺术表达

教育演示

联觉现象演示

帮助理解联觉这种神经现象

直观展示感官混合的视觉表现

🚀 SDArt：联觉（基于1.5版本）

这是一个与Stable Diffusion Discord上“每周图片”竞赛相关的模型，旨在让人们在活动结束后继续享受“联觉”主题，并在他人的创作中看到部分设计元素。

🚀 快速开始

此模型的使用方式与其他Stable Diffusion模型相同。更多信息，请查看 Stable Diffusion。

你还可以将模型导出为 ONNX、MPS 和/或 FLAX/JAX。

💻 使用示例

基础用法

from diffusers import StableDiffusionPipeline
import torch

model_id = "Guizmus/SDArt_synesthesia"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "SDArt minh"
image = pipe(prompt).images[0]

image.save("./SDArt.png")

✨ 主要特性

主题

亲爱的挑战者们：

在一个色彩有味道、声音有质感的世界里，各种感官交织，创造出一场感官的盛宴。欢迎来到“联觉”的世界——在这里，平凡变得非凡，艺术拥有了真正富有远见的意义！ :Rainbowpink:

联觉（Synesthesia /ˌsɪn.əsˈθiː.ʒə/）：一种异常的感官融合现象，即一种感官的刺激同时会在另一种感官上产生感觉。联觉者能听到颜色、感受到声音、品尝到形状。

创作一幅能捕捉联觉感官精髓的图像！探索声音、颜色和质感的交叉点。品尝一段旋律、感受一种气味或看到彩色的文字是什么感觉？
品尝雷雨声会是什么样子？你会如何将皮肤感受到阳光温暖的感觉可视化？或者品尝一种特定的颜色——比如鲜红的苹果或清凉的蓝莓，会是怎样的体验？
探索联觉的可能性及其多种解读！

模型描述

这是一个与Stable Diffusion Discord上的“每周图片”竞赛相关的模型。

我尝试从所有参赛作品中创建一个模型，让人们在活动结束后继续享受这个主题，并在他人的创作中看到他们设计的一些元素。模型的标记保持为“SDArt”，并且我将学习率设置得较低，这样它就不会只是复制已有作品。

整个数据集由39张图片组成。它是在 Stable diffusion 1.5 的基础上进行训练的。我使用 EveryDream 进行训练，每张图片总共重复训练100次。图片使用标记“SDArt”和我选择的一个任意标记进行标记。下面提供了数据集，以及用户名及其对应的标记列表。

推荐的采样方法是k_Euler_a或DPM++ 2M Karras，步数为20，CFG值为7.5。

该模型也有基于2.1版本训练的版本。

训练标记

下载链接

📄 许可证

本模型采用CreativeML OpenRAIL-M许可证。

精选推荐AI模型

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers 支持多种语言

Nunchaku Flux.1 Dev Colossus

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

Qwen2.5 VL 7B Abliterated Caption It GGUF

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

图像生成文本

Transformers 支持多种语言

Olmocr 7B 0725 FP8

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

图像生成文本

Transformers 英语

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

大型语言模型

Transformers 英语

AIbase

智启未来，您的人工智能解决方案智库

© 2025AIbase 备案号：闽ICP备08105208号-24