推理:false
二氧化碳当量排放:
排放量:7540
来源:MLCo2 机器学习影响计算器
地理位置:美国东部
使用硬件:TPU v3-8
标签:
语言:en
模型索引:
DALL·E Mini 模型卡
本模型卡重点介绍与Hugging Face上的DALL·E mini空间关联的模型,访问地址此处。该应用名为“dalle-mini”,但整合了“DALL·E Mini”和“DALL·E Mega”模型(具体区别后续详述)。
DALL·E Mega模型是DALL·E Mini的最大版本。关于DALL·E Mega的更多信息,请参阅DALL·E Mega模型卡。
模型详情
- 开发者: Boris Dayma、Suraj Patil、Pedro Cuenca、Khalid Saifullah、Tanishq Abraham、Phúc Lê、Luke、Luke Melas、Ritobrata Ghosh
- 模型类型: 基于Transformer的文本到图像生成模型
- 语言: 英语
- 许可证: Apache 2.0
- 模型描述: 这是一个可根据文本提示生成图像的模型。如模型开发者在DALL·E mini项目报告中所述,“OpenAI通过DALL·E首次展示了令人印象深刻的图像生成模型。DALL·E mini是尝试用开源模型复现这些成果。”
- 更多信息: 关于DALL·E的更多信息,包括DALL·E模型卡,请参阅OpenAI官网。模型开发者的更多信息见项目报告。了解DALL·E Mega的详情,请参阅DALL·E Mega训练日志。
- 引用方式:
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
用途
直接使用
该模型旨在为研究和个人用途生成基于文本提示的图像。预期用途包括支持创意、创作幽默内容,以及为好奇模型行为的人提供生成示例。预期用途不包括滥用和超范围使用部分所述内容。
下游使用
该模型还可用于以下下游场景:
- 研究探索,例如剖析和理解生成模型的局限性与偏见,以推动科学进步
- 开发教育或创意工具
- 艺术创作及设计与艺术流程中的应用
- 用户新发现的其他用途。目前包括诗歌插图(以诗歌为提示)、粉丝艺术(将角色置于其他视觉宇宙中)、视觉双关、童话插图(以奇幻情境为提示)、概念混搭(将纹理应用于完全不同的事物)、风格迁移(以特定风格绘制肖像)等。期待您发掘自己的应用!
下游用途不包括滥用和超范围使用部分所述内容。
滥用、恶意使用及超范围使用
该模型不得用于故意创建或传播制造敌对或疏离环境的图像。包括生成可预见会令人不安、痛苦或冒犯的内容,或传播历史或当前刻板印象的内容。
超范围使用
该模型未训练为对人物或事件的事实性真实呈现,因此用其生成此类内容超出模型能力范围。
滥用与恶意使用
利用模型生成针对个人的残酷内容属于滥用行为,包括:
- 生成贬低、非人化或有害的人物或其环境、文化、宗教等表征
- 故意宣扬或传播歧视性内容或有害刻板印象
- 未经同意冒充他人
- 未经可能观看者同意的性内容
- 虚假与误导信息
- 极端暴力与血腥内容
- 违反使用条款分享受版权或许可保护的内容
- 违反使用条款分享对受版权或许可保护内容的改编版本
局限性与偏见
局限性
模型开发者在DALL·E Mini技术报告中进一步讨论了模型的局限:
- 面部及人物生成通常不准确
- 动物形象往往不真实
- 难以预测模型擅长或不足的领域……良好的提示工程将带来最佳效果
- 模型仅通过英语描述训练,对其他语言表现较差
偏见
内容警告:本节包含可能令人不适、具有冒犯性并可能传播历史及当前刻板印象的内容。
模型训练数据来自未经筛选的互联网内容,且仅限于含英语描述的图片。未使用其他语言社区及文化的文本与图像。这影响了模型所有输出,默认体现白人及西方文化,且非英语提示的生成质量明显低于英语提示。
尽管图像生成模型能力令人印象深刻,它们也可能强化或加剧社会偏见。DALL·E Mini和DALL·E Mega模型的偏见程度与性质尚未完全记录,但初步测试表明它们可能生成包含针对边缘化群体负面刻板印象的图像。分析模型偏见与局限的工作仍在进行中。
当前分析表明:
- 模型生成的图像可能包含针对受保护群体、身份特征及敏感社会职业群体的有害刻板印象
- 生成含人物图像时,倾向于输出被感知为白人的形象,而有色人种代表性不足
- 生成图像可能包含体现有色人种与白人之间权力差异的偏见内容,白人常处于特权位置
- 模型通常仅适用于英语文本生成图像,限制了非英语用户的可访问性,并可能加剧生成图像的偏见
技术报告更详细讨论了这些问题,并强调了模型开发过程中潜在的偏见来源。
局限性与偏见建议
- 应让用户(直接及下游)知晓偏见与局限性
- 应过滤潜在问题内容,例如通过检测暴力或色情的自动化模型
- 该模型的后续工作应包括实现人物与文化平衡公正表征的方法,例如通过策划兼具多样性与包容性的训练数据集
训练
训练数据
模型开发者使用了3个数据集:
图像编码器微调使用了200万图像子集。
所有图像(约1500万)用于训练Seq2Seq模型。
训练流程
如DALL·E Mini技术报告所述,训练期间图像与描述通过以下流程:
- 图像通过VQGAN编码器转为token序列
- 描述通过BART编码器编码
- BART编码器输出与编码图像输入BART解码器,该自回归模型预测下一token
- 损失函数为模型预测logits与VQGAN实际图像编码间的softmax交叉熵
DALL·E Mega的简化训练流程如下:
- 硬件: 1组TPU v3-256 = 32个TPU VM v3-8节点(每节点8 TPU)= 256 TPU v3
- 优化器: 分布式Shampoo
- 模型分区规格: 8模型并行 × 32数据并行
- 批次: 每模型44样本 × 32数据并行 × 3梯度累积步 = 每更新4224递增样本
- 学习率: 10,000步预热至0.0001,随后保持至平稳
- 每编码器/解码器层使用梯度检查点(即MHA + FFN)
- 分布式Shampoo + Normformer优化证明有效且高效扩展了该模型
- 需注意学习率等参数有时动态调整,批次大小也随时间增加
完整流程及技术细节详见DALL·E Mega训练日志。
评估结果
模型开发者在DALL·E Mini技术报告中详细讨论了结果,比较了DALL·E Mini与DALL·E-pytorch、OpenAI的DALL·E及结合CLIP神经网络模型的生成器的表现。
DALL·E Mega的评估结果见此技术报告。
环境影响
DALL·E Mini预估排放
该模型比原版DALL·E小27倍,仅用单块TPU v3-8训练3天。
根据上述信息,我们使用Lacoste等(2019)提出的机器学习影响计算器估算碳排放。硬件、运行时间、云服务商及计算区域用于估算碳影响。
- 硬件类型: TPU v3-8
- 使用时长: 72小时(3天)
- 云服务商: GCP(技术报告提及)
- 计算区域: us-east1(模型开发者提供)
- 碳排放(功耗×时间×电网位置碳强度): 30.16千克CO2当量
DALL·E Mega预估排放
截至2022年6月9日,DALL·E Mega仍在训练中。开发者报告其已在TPU v3-256上训练约40-45天。使用这些数值,我们通过相同方法估算碳排放:
- 硬件类型: TPU v3-256
- 使用时长: 960-1080小时(40-45天)
- 云服务商: 未知
- 计算区域: 未知
- 碳排放: 未知
引用
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.