许可证:bigscience-bloom-rail-1.0
语言:
- 阿肯语
- 阿拉伯语
- 阿萨姆语
- 班巴拉语
- 孟加拉语
- 加泰罗尼亚语
- 编程语言
- 英语
- 西班牙语
- 巴斯克语
- 丰语
- 法语
- 古吉拉特语
- 印地语
- 印尼语
- 伊博语
- 基库尤语
- 卡纳达语
- 卢干达语
- 林加拉语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 葡萄牙语
- 隆迪语
- 卢旺达语
- 绍纳语
- 南索托语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 茨瓦纳语
- 聪加语
- 通布卡语
- 特威语
- 乌尔都语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 简体中文
- 繁体中文
- 祖鲁语
任务标签:文本生成
BLOOM 语言模型
BigScience 大型开放科学多语言语言模型
模型卡片
版本 1.0 / 2022年5月26日
目录
- 模型详情
- 用途
- 训练数据
- 风险与限制
- 评估
- 建议
- 术语与计算
- 更多信息
- 模型卡片作者
模型详情
基础信息
本节为任何想了解模型基本信息的人提供内容。
点击展开
开发团队: BigScience(官网)
- 所有贡献者均为志愿者或已获得雇主同意。*(具体参与者名单后续公布。)
模型类型: 基于Transformer的语言模型
版本: 1.0.0
支持语言: 多种;详见训练数据
许可证: RAIL许可证v1.0(链接)
预计发布日期: 2022年7月11日,星期一
问题反馈: bigscience-contact@googlegroups.com
引用格式: BigScience,《BigScience开放科学多语言(BLOOM)语言模型》。国际项目,2021年5月-2022年5月
资助方:
- 法国政府
- Hugging Face(官网)
- 贡献者所属机构(具体名单后续公布)
技术规格
本节面向从事模型开发的人员。
点击展开
完整训练复现细节请参见BLOOM训练说明。
模型架构: 基于Megatron-LM GPT2改进(参见论文、BLOOM Megatron代码):
- 仅解码器架构
- 词嵌入层应用层归一化(
StableEmbedding
;参见代码、论文)
- ALiBI位置编码(参见论文),使用GeLU激活函数
- 7,069,016,064参数:
- 1,027,604,480词嵌入参数
- 30层,32个注意力头
- 隐藏层维度4096
- 使用2048个token的序列长度(参见BLOOM分词器、分词器说明)
目标函数: 平均交叉熵损失(参见API文档)。
计算基础设施: 法国政府提供的Jean Zay公共超级计算机(参见公告)。
训练
训练日志:Tensorboard链接
- 训练轮次:1(当前目标)
- 时间:
- 开始:2022年3月11日11:42(PST)
- 结束:2022年7月5日
- 训练成本估算:相当于云计算的200-500万美元(含前期实验)
- 服务器位置:法国法兰西岛大区
分词处理
BLOOM分词器(链接)是基于以下内容训练的子词分词器:
- 字节级BPE算法
- 简单预分词规则,无标准化
- 词汇量250,680
使用按语言alpha加权的语料库子集进行训练。
环境影响
点击展开
训练使用的超级计算机Jean Zay(官网)主要使用核能,产生的热量被回收用于校园供暖。
碳排放估算:(训练完成后公布)
电力消耗估算:(训练完成后公布)
用途
本节讨论模型的预期用途、可预见的用户群体(包括受模型影响的群体),以及被视为超出范围或滥用的场景。为考虑使用模型或受模型影响的任何人提供信息。
点击展开
预期用途
本模型旨在促进大型语言模型(LLM)的公共研究,可用于文本生成或作为特定任务微调的预训练基模型。以下用例非穷尽列举。
直接用途
- 文本生成
- 探索语言模型生成文本的特征(如完形填空测试、反事实生成、重构生成)
下游用途
滥用与超范围用途
本节说明用户不应采取的行为。
详见BLOOM许可证附件A的使用限制条款。以下为非穷尽列举的部分可预见问题用例。
超范围用途
在高风险场景中使用本模型属于超范围。该模型未设计用于关键决策或对个人生计/福祉有实质影响的用途。模型输出可能看似真实但包含错误信息。
超范围用途包括:
- 生物医学、政治法律或金融领域
- 个人评估(如就业、教育、信贷)
- 关键自动决策、事实内容生成、可靠摘要或必须正确的预测
滥用行为
故意将模型用于危害、侵犯人权或其他恶意活动属于滥用,包括:
目标用户
直接用户
- 公众
- 研究人员
- 学生
- 教育工作者
- 工程师/开发者
- 非商业实体
- 社区倡导者(包括人权组织)
间接用户
其他受影响方
- 被LLM提及的个人/群体
- 接触LLM输出或基于其决策的个人/群体
- 作品被纳入LLM的个人/群体
训练数据
本节概述训练数据的基本情况,帮助理解模型学习内容。
点击展开
各数据集详情参见独立数据卡片。
训练数据包含:
- 45种自然语言
- 12种编程语言
- 1.5TB预处理文本,转化为3500亿唯一token(详见分词器说明)
语言分布
饼图显示训练数据的语言分布:

下表展示尼日尔-刚果语系和印度语系语言的详细分布:
点击展开
尼日尔-刚果语系 |
百分比 |
|
印度语系 |
百分比 |
奇通布卡语 |
0.00002 |
|
阿萨姆语 |
0.01 |
基库尤语 |
0.00004 |
|
奥里亚语 |
0.04 |
班巴拉语 |
0.00004 |
|
古吉拉特语 |
0.04 |
阿肯语 |
0.00007 |
|
马拉地语 |
0.05 |
聪加语 |
0.00007 |
|
旁遮普语 |
0.05 |
南索托语 |
0.00007 |
|
卡纳达语 |
0.06 |
齐切瓦语 |
0.0001 |
|
尼泊尔语 |
0.07 |
茨瓦纳语 |
0.0002 |
|
泰卢固语 |
0.09 |
北索托语 |
0.0002 |
|
马拉雅拉姆语 |
0.10 |
丰语 |
0.0002 |
|
乌尔都语 |
0.10 |
隆迪语 |
0.0003 |
|
泰米尔语 |
0.20 |
沃洛夫语 |
0.0004 |
|
孟加拉语 |
|