模型简介
模型特点
模型能力
使用案例
🚀 DALL·E Mini模型卡片
DALL·E Mini是一个基于文本生成图像的模型,可根据文本提示生成各种图像。它在创意支持、幽默内容创作等方面具有广泛应用。本模型卡片聚焦于Hugging Face上与DALL·E Mini空间相关的模型,你可以点击此处查看。
🚀 快速开始
本模型旨在基于文本提示生成图像,可用于研究和个人使用。你可以通过访问DALL·E Mini空间开始使用。
✨ 主要特性
- 文本到图像生成:根据文本提示生成相应的图像。
- 多种应用场景:支持创意、幽默内容创作等。
📚 详细文档
模型详情
- 开发者:Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê、Luke、Luke Melas、Ritobrata Ghosh
- 模型类型:基于Transformer的文本到图像生成模型
- 语言:英语
- 许可证:Apache 2.0
- 模型描述:该模型可根据文本提示生成图像。正如模型开发者在项目报告中所述,“OpenAI的DALL·E是首个令人印象深刻的图像生成模型,DALL·E Mini则是尝试用开源模型重现这些结果”。
- 更多信息资源:可访问OpenAI的网站了解DALL·E的更多信息,包括DALL·E模型卡片。查看项目报告获取模型开发者提供的更多信息。若想了解DALL·E Mega的具体信息,可查看DALL·E Mega模型卡片。
- 引用格式:
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
使用方式
直接使用
该模型旨在基于文本提示生成图像,用于研究和个人消费。预期用途包括支持创意、创作幽默内容,以及为对模型行为感兴趣的人提供生成结果。预期用途不包括滥用、恶意使用和超出范围使用部分所述的情况。
下游使用
该模型也可用于下游用例,包括:
- 研究工作,如探索和更好地理解生成模型的局限性和偏差,以进一步推动科学发展。
- 开发教育或创意工具。
- 生成艺术作品,并用于设计和艺术创作过程。
- 用户发现的其他新用途,目前包括诗歌插画(以诗歌为提示)、粉丝艺术(将角色置于不同视觉场景中)、视觉双关语、童话插画(以幻想情境为提示)、概念混搭(将纹理应用于不同事物)、风格迁移(以某种风格绘制肖像)等。
下游使用不包括滥用、恶意使用和超出范围使用部分所述的情况。
滥用、恶意使用和超出范围使用
该模型不得用于故意创建或传播对他人造成敌对或排斥环境的图像。这包括生成人们可能会觉得不安、痛苦或冒犯的图像,或传播历史或当前刻板印象的内容。
- 超出范围使用:该模型并非用于生成真实或准确反映人物或事件的内容,因此使用该模型生成此类内容超出了其能力范围。
- 滥用和恶意使用:使用该模型生成对个人残酷的内容属于滥用行为,包括:
- 生成贬低、非人化或以其他方式伤害他人或其环境、文化、宗教等的内容。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经他人同意的情况下冒充他人。
- 未经可能看到该内容的人的同意,生成色情内容。
- 虚假和误导性信息。
- 展示严重暴力和血腥场景。
- 违反使用条款分享受版权保护或有许可证的材料。
- 违反使用条款分享对受版权保护或有许可证的材料进行修改后的内容。
局限性和偏差
局限性
模型开发者在DALL·E Mini的技术报告中进一步讨论了模型的局限性:
- 面部和人物的生成效果通常不佳。
- 动物的生成通常不真实。
- 难以预测模型在哪些方面表现出色或不足,良好的提示工程将带来最佳结果。
- 该模型仅使用英语描述进行训练,使用其他语言提示时性能会下降。
偏差
内容警告:读者应注意,本节包含令人不安、冒犯性的内容,可能会传播历史和当前的刻板印象。
该模型使用来自互联网的未过滤数据进行训练,仅限于带有英语描述的图片,未使用其他语言社区和文化的文本和图像。这影响了模型的所有输出,默认以白人和西方文化为主,并且使用非英语提示生成的内容质量明显低于英语提示。
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。DALL·E Mini和DALL·E Mega模型的偏差程度和性质尚未完全记录,但初步测试表明,它们可能会生成包含对少数群体负面刻板印象的图像。分析模型偏差和局限性的性质和程度的工作正在进行中。
目前的分析表明:
- 模型生成的图像可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
- 当模型生成包含人物的图像时,往往会输出我们认为是白人的人物,而有色人种的代表性不足。
- 模型生成的图像可能包含描绘有色人种和白人之间权力差异的偏差内容,白人处于特权地位。
- 该模型通常仅适用于基于英语文本生成图像,限制了非英语使用者对模型的访问,并可能导致模型生成的图像存在偏差。
技术报告更详细地讨论了这些问题,并强调了模型开发过程中可能存在偏差的来源。
局限性和偏差建议
- 应让用户(直接和下游用户)了解模型的偏差和局限性。
- 应过滤掉可能存在问题的内容,例如通过检测暴力或色情内容的自动化模型。
- 对该模型的进一步研究应包括采用平衡和公正地呈现人物和文化的方法,例如通过精心策划多样化和包容性的训练数据集。
训练
训练数据
模型开发者使用了3个数据集来训练模型:
- Conceptual Captions Dataset,包含300万对图像和标题。
- Conceptual 12M,包含1200万对图像和标题。
- YFCC100M的OpenAI子集,包含约1500万张图像,由于存储空间限制,进一步子采样为200万张图像。他们使用标题和描述作为图像的文本,并去除了HTML标签、换行符和多余的空格。
在微调图像编码器时,使用了200万张图像的子集。所有图像(约1500万张)用于训练Seq2Seq模型。
训练过程
正如DALL·E Mini的技术报告中所述,在训练过程中,图像和描述都会被输入到系统中,具体过程如下:
- 图像通过VQGAN编码器进行编码,将图像转换为一系列令牌。
- 描述通过BART编码器进行编码。
- BART编码器的输出和编码后的图像被输入到BART解码器中,BART解码器是一个自回归模型,其目标是预测下一个令牌。
- 损失函数是模型预测对数和来自VQGAN的实际图像编码之间的softmax交叉熵。
DALL·E Mega的简化训练过程如下:
- 硬件:1个TPU v3 - 256节点 = 32个TPU VM v3 - 8节点(每个节点8个TPU) = 256个TPU v3
- 优化器:分布式Shampoo
- 模型分区规格:8个模型并行 x 32个数据并行
- 批次:每个模型44个样本 x 32个数据并行 x 3个梯度累积步骤 = 每次更新增加4224个样本
- 学习率:在10000步内热身到0.0001,然后保持不变直到平稳
- 在每个编码器/解码器层(即MHA + FFN)使用梯度检查点
- 分布式Shampoo + Normformer优化已被证明可以有效且高效地扩展该模型。
还应注意的是,学习率和其他参数有时会动态调整,批次大小也会随着时间增加。
有关完整过程和技术材料的更多信息,请参阅DALL·E Mega的训练日志。
评估结果
模型开发者在DALL·E Mini的技术报告中详细讨论了他们的评估结果,该报告将DALL·E Mini的结果与DALL·E-pytorch、OpenAI的DALL·E以及由生成器和CLIP神经网络模型组成的模型进行了比较。
有关DALL·E Mega的评估结果,请参阅技术报告。
环境影响
DALL·E Mini估计排放量
该模型比原始DALL·E小27倍,仅在单个TPU v3 - 8上训练了3天。
基于这些信息,我们使用Lacoste等人(2019)中介绍的机器学习影响计算器来估计以下CO2排放量。硬件、运行时间、云服务提供商和计算区域用于估计碳影响。
- 硬件类型:TPU v3 - 8
- 使用小时数:72(3天)
- 云服务提供商:GCP(如技术报告中所述)
- 计算区域:us - east1(由模型开发者提供)
- 碳排放(功耗 x 时间 x 基于电网位置产生的碳):30.16千克CO2当量。
DALL·E Mega估计排放量
DALL·E Mega仍在训练中。截至2022年6月9日,模型开发者报告称,DALL·E Mega已经在TPU v3 - 256上训练了约40 - 45天。使用这些数据,我们使用Lacoste等人(2019)中介绍的机器学习影响计算器来估计以下CO2排放量。硬件、运行时间、云服务提供商和计算区域用于估计碳影响。
- 硬件类型:TPU v3 - 256
- 使用小时数:960 - 1080小时(40 - 45天)
- 云服务提供商:未知
- 计算区域:未知
- 碳排放(功耗 x 时间 x 基于电网位置产生的碳):未知
引用
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
本模型卡片由Boris Dayma、Margaret Mitchell、Ezi Ozoani、Marissa Gerchick、Irene Solaiman、Clémentine Fourrier、Sasha Luccioni、Emily Witko、Nazneen Rajani和Julian Herrera撰写。
信息表格
属性 | 详情 |
---|---|
模型类型 | 基于Transformer的文本到图像生成模型 |
训练数据 | Conceptual Captions Dataset、Conceptual 12M、YFCC100M的OpenAI子集 |
重要提示
⚠️ 重要提示
该模型存在局限性和偏差,使用时应注意避免生成可能对他人造成伤害或传播负面刻板印象的内容。同时,模型仅使用英语描述进行训练,使用非英语提示时性能会下降。
💡 使用建议
为了获得更好的使用效果,建议使用良好的提示工程。同时,对生成的内容进行过滤,以避免出现可能存在问题的图像。在进一步开发时,可考虑采用平衡和公正地呈现人物和文化的方法,如精心策划多样化和包容性的训练数据集。









