license: bigscience-bloom-rail-1.0
language:
- 阿坎语
- 阿拉伯语
- 阿萨姆语
- 班巴拉语
- 孟加拉语
- 加泰罗尼亚语
- 编程语言
- 英语
- 西班牙语
- 巴斯克语
- 丰语
- 法语
- 古吉拉特语
- 印地语
- 印尼语
- 伊博语
- 基库尤语
- 卡纳达语
- 卢干达语
- 林加拉语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 葡萄牙语
- 隆迪语
- 卢旺达语
- 绍纳语
- 南索托语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 茨瓦纳语
- 聪加语
- 通布卡语
- 特维语
- 乌尔都语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 简体中文
- 繁体中文
- 祖鲁语
pipeline_tag: 文本生成
BLOOM语言模型
BigScience大型开放科学多语言语言模型
模型卡片
版本1.0 / 2022年5月26日
目录
- 模型详情
- 用途
- 训练数据
- 风险与限制
- 评估
- 建议
- 术语与计算
- 更多信息
- 模型卡片作者
模型详情
基础信息
本节为想了解模型基础信息的用户提供说明。
点击展开
开发团队: BigScience (官网)
- 所有贡献者均为志愿者或已获得雇主授权 (参与者详细名单将后续补充)
模型类型: 基于Transformer架构的语言模型
版本: 1.0.0
支持语言: 多语种;详见训练数据
许可证: RAIL许可证v1.0 (链接)
预计发布日期: 2022年7月11日(周一)
问题咨询: bigscience-contact@googlegroups.com
引用格式: BigScience,《BigScience开放科学多语言(BLOOM)语言模型》。国际协作项目,2021年5月-2022年5月
资助方:
-
法国政府
-
Hugging Face (官网)
-
贡献机构 (机构名单将后续补充)
技术规格
本节面向模型开发人员提供技术细节。
点击展开
完整训练复现方法请参见BLOOM训练说明文档。
模型架构: 基于Megatron-LM GPT2改进 (论文, BLOOM Megatron代码):
目标函数: 均值缩减的交叉熵 (参见API文档)。
计算基础设施: 法国政府提供的Jean Zay公共超级计算机 (参见公告)。
训练过程
进行中。
当前训练日志: Tensorboard链接
分词处理
BLOOM分词器(链接)是基于以下内容训练的子词分词器:
使用语料库初版子集按语言alpha加权进行训练。
环境影响
点击展开
训练使用的超级计算机Jean Zay(官网)主要使用核能,其产生的热量被回收用于校园供暖。
碳排放估算: (训练完成后补充)
电力消耗估算: (训练完成后补充)
用途
本节说明模型预期用途,讨论可能受影响的用户群体,并界定超出范围或滥用场景。为考虑使用模型或可能受模型影响的各方提供信息。
点击展开
预期用途
本模型旨在促进大型语言模型(LLM)的公共研究。LLM可用于文本生成或作为特定任务微调的基础模型。以下用例非穷尽列举。
直接应用
下游应用
- 利用语言模型的任务包括:信息抽取、问答系统、文本摘要
滥用与超范围使用
本节说明用户不应采取的行为。
详见BLOOM许可证附件A的使用限制条款。以下列举部分易预见的非穷尽问题用例。
超范围使用
在高风险场景使用本模型属于超范围应用。该模型并非为涉及个人生计或福祉的关键决策设计。模型输出内容可能看似真实实则错误。
超范围场景包括:
滥用行为
故意将模型用于危害行为、侵犯人权或其他恶意活动均属滥用。包括:
目标用户
直接用户
-
公众
-
研究人员
-
学生
-
教育工作者
-
工程师/开发者
-
非商业实体
-
社区倡导者(包括人权与民权组织)
间接用户
其他受影响方
训练数据
本节概述训练数据基本情况,帮助理解模型学习内容。
点击展开
各数据集详情参见独立数据卡片。
训练数据包含:
语言分布
饼图显示训练数据的语言分布情况。

下表进一步展示尼日尔-刚果语系和印度语系在训练数据中的分布。
点击展开
尼日尔-刚果语系 |
占比 |
|
印度语系 |
占比 |
齐通布卡语 |
0.00002 |
|
阿萨姆语 |
0.01 |
基库尤语 |
0.00004 |
|
奥里亚语 |
0.04 |
班巴拉语 |
0.00004 |
|
古吉拉特语 |
0.04 |
阿坎语 |
0.00007 |
|
马拉地语 |
0.05 |
聪加语 |
0.00007 |
|
旁遮普语 |
0.05 |
南索托语 |
0.00007 |
|
卡纳达语 |
0.06 |
齐切瓦语 |
0.0001 |
|
尼泊尔语 |
0.07 |
茨瓦纳语 |
0.0002 |
|
泰卢固语 |
0.09 |
北索托语 |
0.0002 |
|
马拉雅拉姆语 |
0.10 |
丰语 |
0.0002 |
|
乌尔都语 |
0.10 |
隆迪语 |
0.0003 |
|
泰米尔语 |
0.20 |
沃洛夫语 |
0.0004 |
|
孟加拉语 |
0.50 |
卢干达语 |
0.0004 |
|
印地语 |
0.70 |
绍纳语 |
0.001 |
|
|
|
祖鲁语 |
0.001 |
|
|
|
伊博语 |
0.001 |
|
|
|
科萨语 |
0.001 |
|
|
|
卢旺达语 |
0.003 |
|
|
|
约鲁巴语 |
0.006 |
|
|
|
斯瓦希里语 |
0.02 |
|
|
|
下表展示编程语言分布。
点击展开
扩展名 |
语言 |
文件数量 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
py |
Python |
2,435,072 |
js |
JavaScript |
1,905,518 |
cs |
C# |
1,577,347 |
rb |
Ruby |
6,78,413 |
cc |
C++ |
443,054 |
hpp |
C++ |
391,048 |
lua |
Lua |
352,317 |
go |
GO |
227,763 |
ts |
TypeScript |
195,254 |
C |
C |
134,537 |
scala |
Scala |
92,052 |
hh |
C++ |
67,161 |
H |
C++ |
55,899 |
tsx |
TypeScript |
33,107 |
rs |
Rust |
29,693 |
phpt |
PHP |
9,702 |
c++ |
C++ |
1,342 |
h++ |
C++ |
791 |
php3 |
PHP |
540 |
phps |
PHP |
270 |
php5 |
PHP |
166 |
php4 |
PHP |
29 |
风险与限制
本节识别可预见的危害与误解。
点击展开
模型可能:
-
过度代表某些观点而低估其他观点
-
包含刻板印象
-
包含个人信息
-
生成:
-
仇恨、侮辱或暴力内容
-
歧视性或偏见性内容
-
可能不适合所有场合的内容(包括性相关)
-
产生错误,包括输出看似真实实则错误的信息
-
生成无关或重复内容
评估
本节描述评估方案与结果。
点击展开
评估指标
本节说明不同性能计算方式及其选用原因。
包括:
指标 |
选用理由 |
困惑度 |
训练过程中量化模型改进的标准指标 |
交叉熵损失 |
语言模型的标准目标函数 |
以及针对特定任务的多项指标。(更多评估指标将在评估方案完成后补充)
影响因素
本节列出BLOOM建模的不同方面,重点关注可能导致模型行为高变异的因素。
-
语言(如英语或约鲁巴语)
-
领域(如新闻或故事)
-
人口特征(如性别或国籍)
评估结果
基于影响因素和评估指标得出。
训练期间评估:
截至2022年5月25日15:00 PST:
-
训练损失: 2.0
-
验证损失: 2.2
-
困惑度: 8.9
(更多评估分数将在模型训练完成后补充。)
建议
本节提供风险警示与潜在缓解措施。
点击展开
术语与计算
本节定义常用术语及指标计算方式。