license: bigscience-bloom-rail-1.0
language:
- 阿坎语
- 阿拉伯语
- 阿萨姆语
- 班巴拉语
- 孟加拉语
- 加泰罗尼亚语
- 编程语言
- 英语
- 西班牙语
- 巴斯克语
- 丰语
- 法语
- 古吉拉特语
- 印地语
- 印尼语
- 伊博语
- 基库尤语
- 卡纳达语
- 卢干达语
- 林加拉语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 葡萄牙语
- 基隆迪语
- 卢旺达语
- 绍纳语
- 南索托语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 茨瓦纳语
- 聪加语
- 通布卡语
- 特维语
- 乌尔都语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 简体中文
- 繁体中文
- 祖鲁语
pipeline_tag: 文本生成
BLOOM语言模型
BigScience大型开放科学多语言语言模型
模型卡片
版本1.0 / 2022年5月26日
目录
- 模型详情
- 用途
- 训练数据
- 风险与限制
- 评估
- 建议
- 术语与计算
- 更多信息
- 模型卡片作者
模型详情
基础信息
本部分为想了解模型基础信息的读者提供概述。
点击展开
开发团队: BigScience (官网)
- 所有贡献者均为志愿者或已获得雇主授权 (具体参与者名单将后续补充)
模型类型: 基于Transformer架构的语言模型
版本: 1.0.0
支持语言: 多语言;详见训练数据
许可证: RAIL许可证v1.0 (链接)
预计发布日期: 2022年7月11日
问题咨询: bigscience-contact@googlegroups.com
引用格式: BigScience,《BigScience开放科学多语言(BLOOM)语言模型》。国际协作项目,2021年5月-2022年5月
资助方:
-
法国政府
-
Hugging Face (官网)
-
贡献机构 (具体机构名单将后续补充)
技术规格
本部分面向模型开发人员。
点击展开
完整训练复现细节请参见BLOOM训练说明文档
模型架构: 基于Megatron-LM GPT2改进 (论文, BLOOM Megatron代码):
目标函数: 均值归约的交叉熵损失 (API文档)
计算基础设施: 法国政府提供的Jean Zay公共超算中心 (公告)
训练过程
训练日志: Tensorboard链接
分词处理
BLOOM分词器(链接)采用基于学习的子词分词方案,训练时使用:
基于语料库的初步版本子集,采用按语言alpha加权的方式进行训练
环境影响
点击展开
训练使用的超算Jean Zay (官网)主要使用核能供电,其产生的余热被回收用于校园供暖。
碳排放估算: (训练完成后补充)
电力消耗估算: (训练完成后补充)
用途
本部分说明模型预期用途,讨论可能受模型影响的用户群体,并界定超出范围或属于滥用的场景。为考虑使用模型或可能受模型影响的人士提供信息。
点击展开
预期用途
本模型的创建旨在促进大型语言模型(LLM)的公共研究。LLM预期用于文本生成或作为可针对特定任务微调的预训练基础模型。以下用例并非全部可能场景。
直接应用
下游应用
- 利用语言模型的任务包括:信息抽取、问答系统、文本摘要
滥用与超范围使用
本部分说明用户不应采取的行为。
详见BLOOM许可证附件A中的详细使用限制。以下列举部分典型问题场景,但非全部情况。
超范围使用
将模型用于高风险场景属于超范围使用。该模型并非为关键决策设计,也不应用于可能对个人生计或福祉产生实质影响的场景。模型输出的内容可能看似真实但实际并不正确。
超范围使用包括:
滥用行为
出于伤害目的、违反人权或其他恶意活动使用模型均属滥用。包括:
-
垃圾内容生成
-
虚假信息与影响操作
-
诋毁与诽谤
-
骚扰与虐待
-
欺骗行为
-
未经同意的身份模仿
-
未经同意的监控
-
未按RAIL许可证使用限制要求标注模型生成内容
目标用户
直接用户
-
公众
-
研究人员
-
学生
-
教育工作者
-
工程师/开发者
-
非商业实体
-
社区倡导者,包括人权与公民权利组织
间接用户
其他受影响方
训练数据
本部分概述训练数据基本情况,适合希望了解模型学习内容的读者。
点击展开
各数据集详情参见单独的数据卡片。
训练数据包含:
语言分布
饼图展示训练数据中的语言分布。

下表进一步展示尼日尔-刚果语系和印度语系在训练数据中的分布。
点击展开
尼日尔-刚果语系 |
占比 |
|
印度语系 |
占比 |
奇通布卡语 |
0.00002 |
|
阿萨姆语 |
0.01 |
基库尤语 |
0.00004 |
|
奥里亚语 |
0.04 |
班巴拉语 |
0.00004 |
|
古吉拉特语 |
0.04 |
阿坎语 |
0.00007 |
|
马拉地语 |
0.05 |
聪加语 |
0.00007 |
|
旁遮普语 |
0.05 |
南索托语 |
0.00007 |
|
卡纳达语 |
0.06 |
齐切瓦语 |
0.0001 |
|
尼泊尔语 |
0.07 |
茨瓦纳语 |
0.0002 |
|
泰卢固语 |
0.09 |
北索托语 |
0.0002 |
|
马拉雅拉姆语 |
0.10 |
丰语 |
0.0002 |
|
乌尔都语 |
0.10 |
基隆迪语 |
0.0003 |
|
泰米尔语 |
0.20 |
沃洛夫语 |
0.0004 |
|
孟加拉语 |
0.50 |
卢干达语 |
0.0004 |
|
印地语 |
0.70 |
绍纳语 |
0.001 |
|
|
|
祖鲁语 |
0.001 |
|
|
|
伊博语 |
0.001 |
|
|
|
科萨语 |
0.001 |
|
|
|
卢旺达语 |
0.003 |
|
|
|
约鲁巴语 |
0.006 |
|
|
|
斯瓦希里语 |
0.02 |
|
|
|
下表展示编程语言分布。
点击展开
扩展名 |
语言 |
文件数量 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
py |
Python |
2,435,072 |
js |
JavaScript |
1,905,518 |
cs |
C# |
1,577,347 |
rb |
Ruby |
678,413 |
cc |
C++ |
443,054 |
hpp |
C++ |
391,048 |
lua |
Lua |
352,317 |
go |
GO |
227,763 |
ts |
TypeScript |
195,254 |
C |
C |
134,537 |
scala |
Scala |
92,052 |
hh |
C++ |
67,161 |
H |
C++ |
55,899 |
tsx |
TypeScript |
33,107 |
rs |
Rust |
29,693 |
phpt |
PHP |
9,702 |
c++ |
C++ |
1,342 |
h++ |
C++ |
791 |
php3 |
PHP |
540 |
phps |
PHP |
270 |
php5 |
PHP |
166 |
php4 |
PHP |
29 |
风险与限制
本部分识别可预见的危害与误解。
点击展开
模型可能:
-
过度代表某些观点而低估其他观点
-
包含刻板印象
-
包含个人信息
-
生成:
-
仇恨、侮辱或暴力内容
-
歧视性或偏见性内容
-
可能不适合所有场景的内容,包括性相关描述
-
产生错误,包括将不正确信息呈现为事实
-
生成无关或重复内容
评估
本部分描述评估方案与结果。
点击展开
评估指标
说明不同性能衡量方式及其选用原因。
包括:
指标 |
选用理由 |
困惑度 |
训练过程中量化模型改进的标准指标 |
交叉熵损失 |
语言模型的标准目标函数 |
以及针对特定任务的多项指标。(更多评估指标将在评估方案完成后补充)
影响因素
列举可能造成模型行为差异的主要方面。
-
语言,如英语或约鲁巴语
-
领域,如新闻或故事
-
人口统计特征,如性别或国籍
评估结果
基于影响因素和评估指标得出。
训练期间评估:
截至2022年5月25日 PST 15:00:
-
训练损失: 2.7
-
验证损失: 3.1
-
困惑度: 21.9
(更多评估分数将在模型训练完成后补充)
建议
本部分提供风险提示与潜在缓解措施。
点击展开
术语与计算
本部分定义常用术语及指标计算方式。