推理:false
二氧化碳当量排放:
排放量:450300
来源:MLCo2 机器学习影响计算器
地理位置:美国东部
使用硬件:TTPU v3-256
标签:
语言:en
模型索引:
- 名称:dalle-mega
结果:[]
任务:
名称:文本到图像
类型:text-to-image
DALL·E Mega 模型卡
本模型卡重点介绍与Hugging Face上DALL·E mini空间关联的DALL·E Mega模型,访问链接此处。应用名为“dalle-mini”,但整合了“DALL·E Mini”和“DALL·E Mega”模型。DALL·E Mega是DALLE Mini的最大版本。关于DALL·E Mini的更多信息,请参阅DALL·E Mini模型卡。
模型详情
-
开发者: Boris Dayma, Suraj Patil, Pedro Cuenca, Khalid Saifullah, Tanishq Abraham, Phúc Lê, Luke, Luke Melas, Ritobrata Ghosh
-
模型类型: 基于Transformer的文本到图像生成模型
-
语言: 英语
-
许可证: Apache 2.0
-
模型描述: 这是一个可以根据文本提示生成图像的模型。正如模型开发者在DALL·E mini项目报告中所写,“OpenAI首次推出了令人印象深刻的图像生成模型DALL·E。DALL·E mini是一个尝试用开源模型复现这些结果的努力。”
-
更多信息资源:
- 参见OpenAI网站了解更多关于DALL·E的信息,包括DALL·E模型卡。
- 参见DALL·E Mini项目报告,了解开发者关于DALL·E Mini的更多信息。
- 要了解更多关于DALL·E Mega的信息,请参阅DALL·E Mega训练日志。
-
引用:
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
用途
直接使用
该模型旨在用于根据文本提示生成图像,供研究和个人使用。预期用途包括支持创意、创作幽默内容,以及为对模型行为感兴趣的人提供生成结果。预期用途不包括滥用和超出范围使用部分中描述的内容。
下游使用
该模型还可用于下游用例,包括:
- 研究工作,例如探索和更好地理解生成模型的局限性和偏见,以进一步推动科学发展
- 开发教育或创意工具
- 生成艺术品并用于设计和艺术过程
- 用户新发现的其他用途。目前包括诗歌插图(以诗歌为提示)、粉丝艺术(将角色置于各种其他视觉宇宙中)、视觉双关、童话插图(以奇幻情境为提示)、概念混搭(将纹理应用于完全不同的事物)、风格迁移(以某种风格创作的肖像)……我们希望您能找到自己的应用!
下游用途不包括滥用和超出范围使用中描述的用途。
滥用、恶意使用和超出范围使用
该模型不应被用于故意创建或传播为人们创造敌对或疏远环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
超出范围使用
该模型未经过训练以生成关于人或事件的真实或事实性表示,因此使用该模型生成此类内容超出了该模型的能力范围。
滥用和恶意使用
使用该模型生成对个体残忍的内容是对该模型的滥用。
这包括:
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的内容
- 故意推广或传播歧视性内容或有害刻板印象
- 未经同意冒充个人
- 未经可能看到的人的同意生成性内容
- 错误和虚假信息
- 极端暴力和血腥的描绘
- 违反使用条款分享受版权或许可保护的材料
- 违反使用条款分享受版权或许可保护材料的改编内容
局限性和偏见
局限性
模型开发者在DALL·E Mini技术报告中进一步讨论了该模型的局限性:
- 面部和人物通常无法正确生成
- 动物通常不真实
- 难以预测模型在哪些方面表现优异或不足……良好的提示工程将带来最佳结果
- 该模型仅使用英语描述进行训练,在其他语言中表现不佳
偏见
内容警告:读者应注意本节包含令人不安、冒犯性内容,并可能传播历史和当前的刻板印象。
该模型在互联网上未经筛选的数据上进行训练,仅限于带有英语描述的图片。未使用来自使用其他语言的社区和文化的文本和图像。这影响了模型的所有输出,白人和西方文化被默认为默认,模型使用非英语提示生成内容的质量明显低于英语提示。
尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。DALL·E Mini和DALL·E Mega模型的偏见程度和性质尚未完全记录,但初步测试表明,它们可能生成包含对少数群体的负面刻板印象的图像。分析模型的偏见和局限性的工作仍在进行中。
我们当前的分析表明:
- 模型生成的图像可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象
- 当模型生成包含人物的图像时,倾向于输出我们感知为白人的人物,而有色人种的代表不足
- 模型生成的图像可能包含偏见内容,描绘有色人种和白人之间的权力差异,白人处于特权地位
- 该模型通常仅适用于基于英语文本生成图像,限制了非英语用户对模型的访问,并可能加剧模型生成的图像中的偏见
技术报告更详细地讨论了这些问题,并强调了模型开发过程中潜在的偏见来源。
局限性和偏见建议
- 应让用户(包括直接和下游用户)了解偏见和局限性
- 应过滤潜在有问题的内容,例如通过检测暴力或色情内容的自动化模型
- 对该模型的进一步工作应包括平衡和公正地表示人和文化的方法,例如通过策划训练数据集使其既多样化又包容
训练
训练数据
有关DALL·E Mega训练数据的详细信息,请参阅DALL·E Mega训练日志。
训练过程
DALL·E Mega的简化训练过程如下:
- 硬件: 1 pod TPU v3-256 = 32个TPU VM v3-8节点(每个节点8个TPU)= 256个TPU v3
- 优化器: 分布式Shampoo
- 模型分区规格: 8个模型并行 x 32个数据并行
- 批次: 每个模型44个样本 x 32个数据并行 x 3个梯度累积步骤 = 每次更新4224个增加的样本
- 学习率: 在前10,000步预热至0.0001,然后保持恒定直至平台期
- 在每个编码器/解码器层(即MHA + FFN)上使用梯度检查点
- 分布式Shampoo + Normformer优化已被证明对这种模型的扩展有效且高效
- 还应注意,学习率和其他参数有时会动态调整,批次大小也会随时间增加
有关完整过程和技术材料的更多信息,请参阅DALL·E Mega训练日志。
评估结果
有关DALL·E Mega的评估结果,请参阅此技术报告和DALL·E Mega训练日志。
环境影响
DALL·E Mega仍在训练中。截至2022年6月28日,模型开发者报告DALL·E Mega已在TPU v3-256上训练了约40-45天。使用这些数字,我们使用Lacoste等人(2019)中提出的机器学习影响计算器估计以下CO2排放量。硬件、运行时间、云提供商和计算区域用于估计碳影响。
- 硬件类型: TPU v3-256
- 使用小时数: 1344小时(56天)
- 云提供商: GCP
- 计算区域: us-east1
- 碳排放量(功耗 x 时间 x 基于电网位置的碳产生): 18013.47千克CO2当量
引用
@misc{Dayma_DALL·E_Mini_2021,
author = {Dayma, Boris and Patil, Suraj and Cuenca, Pedro and Saifullah, Khalid and Abraham, Tanishq and Lê Khắc, Phúc and Melas, Luke and Ghosh, Ritobrata},
doi = {10.5281/zenodo.5146400},
month = {7},
title = {DALL·E Mini},
url = {https://github.com/borisdayma/dalle-mini},
year = {2021}
}
本模型卡由以下人员撰写:Boris Dayma, Margaret Mitchell, Ezi Ozoani, Marissa Gerchick, Irene Solaiman, Clémentine Fourrier, Sasha Luccioni, Emily Witko, Nazneen Rajani, 和 Julian Herrera。