许可证:bigscience-bloom-rail-1.0
语言支持:
- 阿坎语
- 阿拉伯语
- 阿萨姆语
- 班巴拉语
- 孟加拉语
- 加泰罗尼亚语
- 代码
- 英语
- 西班牙语
- 巴斯克语
- 丰语
- 法语
- 古吉拉特语
- 印地语
- 印尼语
- 伊博语
- 基库尤语
- 卡纳达语
- 卢干达语
- 林加拉语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 葡萄牙语
- 隆迪语
- 卢旺达语
- 绍纳语
- 南索托语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 茨瓦纳语
- 聪加语
- 通布卡语
- 特威语
- 乌尔都语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 祖鲁语
编程语言支持:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript
管道标签:文本生成
交互示例:
-
文本:'"whatpu"是坦桑尼亚本土的一种小型毛茸动物。使用该词的例句:我们在非洲旅行时看到了这些非常可爱的whatpus。"farduddle"意为快速上下跳跃。使用该词的例句:'
示例标题:虚构词汇
组别:英语
-
文本:'法语示例:品尝圃鹀时,首先需要'
示例标题:食谱
组别:法语
-
文本:'34+10=44\n54+20='
示例标题:加法
组别:数学
-
文本:'将不规则动词转换为过去式:\nArise - Arose\nBecome - Became\nForget - Forgot\nFreeze - '
示例标题:不规则动词
组别:英语
二氧化碳当量排放:
排放量:24,700,000
来源:《估算1760亿参数语言模型BLOOM的碳足迹》https://arxiv.org/abs/2211.02001
训练类型:预训练
地理位置:法国奥赛
使用硬件:384块A100 80GB GPU
模型指标:
- 名称:bloom
结果:
- 任务类型:文本生成
数据集类型:openai_humaneval
名称:humaneval
指标:
- 名称:pass@1
类型:pass@1
值:0.155
- 名称:pass@10
类型:pass@10
值:0.328
- 名称:pass@100
类型:pass@100
值:0.572

BigScience大型开放科学多语言模型
版本1.3 / 2022年7月6日
当前检查点:训练迭代95,000次
论文链接:此处
总观察令牌数:3660亿
模型详情
BLOOM是一个自回归大语言模型(LLM),通过工业级计算资源在海量文本数据上训练而成,能够根据提示生成连贯文本。该模型支持46种自然语言和13种编程语言,其生成文本与人类书写内容几乎难以区分。BLOOM还能通过将任务转化为文本生成形式,执行未经明确训练的任务。
基础信息
本节包含模型类型、版本、许可证、资助方、发布日期、开发者及联系信息,适用于需要引用模型的用户。
点击展开
开发团队: BigScience(官网)
所有贡献者均为志愿者或已获得雇主授权
模型类型: 基于Transformer的语言模型
检查点格式: transformers
(Megatron-DeepSpeed格式见此处)
版本: 1.0.0
支持语言: 多种(详见训练数据)
许可证: RAIL许可证v1.0(链接/文章与FAQ)
预计发布日期: 2022年7月11日
问题咨询: bigscience-contact@googlegroups.com
引用格式: BigScience,《BigScience开放科学多语言(BLOOM)语言模型》。国际项目,2021年5月-2022年5月
资助方:
- 法国政府
- Hugging Face(官网)
- 贡献机构(详细名单后续公布)
技术规格
本节包含模型架构目标及计算基础设施详情,面向模型开发研究人员。
点击展开
完整训练复现方法详见BLOOM训练README
模型架构与目标
*基于Megatron-LM GPT2改进(参见论文、BLOOM Megatron代码):
- 仅解码器架构
- 词嵌入层应用层归一化(
StableEmbedding
,参见代码、论文)
- ALiBI位置编码(参见论文),使用GeLU激活函数
- 176,247,271,424个参数:
- 3,596,615,680个嵌入参数
- 70层,112个注意力头
- 隐藏层维度14,336
- 使用2,048令牌序列长度(参见BLOOM分词器、分词说明)
目标函数: 均值缩减交叉熵(参见API文档)
计算基础设施
法国政府提供的Jean Zay公共超级计算机(参见公告)
硬件
- 384块A100 80GB GPU(48节点)
- 备用32块A100 80GB GPU(4节点)
- 每节点8块GPU,使用NVLink 4互联,4条OmniPath链路
- CPU:AMD
- 每节点CPU内存:512GB
- 每节点GPU内存:640GB
- 节点间连接:Omni-Path架构(OPA)
- NCCL通信网络:完全专用子网
- 磁盘IO网络:与其他类型节点共享
软件
训练
本节描述训练数据、训练要素速度规模及训练环境影响,面向关注模型输入与训练足迹的研究者。
点击展开
训练数据
本节概述训练数据构成,帮助用户理解模型学习基础。
各数据集详情见独立数据卡片,其贡献比例见交互式语料图谱
训练数据包含:
- 46种自然语言
- 13种编程语言
- 1.6TB预处理文本,转化为3500亿唯一令牌(详见分词说明)
语言分布
下图展示训练数据中的语言分布:

尼日尔-刚果语系与印度语系分布:
尼日尔-刚果语 |
占比 |
|
印度语系 |
占比 |
奇通布卡语 |
0.00002 |
|
阿萨姆语 |
0.01 |
基库尤语 |
0.00004 |
|
奥里亚语 |
0.04 |
班巴拉语 |
0.00004 |
|
古吉拉特语 |
0.04 |
阿坎语 |
0.00007 |
|
马拉地语 |
0.05 |
编程语言文件数量分布:
扩展名 |
语言 |
文件数 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
预处理
分词: BLOOM分词器(链接)使用:
- 字节级BPE算法
- 简单预分词规则,无标准化
- 词表大小250,680
基于语料子集按语言alpha加权训练
速度、规模与时间
训练日志:Tensorboard链接
环境影响
训练超算Jean Zay(官网)主要使用核能,产生的热量用于校园供暖。
碳排放估算: (待补充)
电力消耗估算: (待补充)
使用场景
本节说明模型预期用途、适用用户及不当使用情况,面向模型使用者及相关受影响方。
点击展开
使用方法
通过HuggingFace生态系统可便捷部署,需安装transformers
和accelerate
。下载指令:
预期用途
本模型旨在促进大语言模型(LLM)的公共研究,可用于文本生成或作为下游任务微调基础。
直接用途
- 文本生成
- 探索语言模型生成特性(如完形填空、反事实生成、重构生成)
下游用途
滥用与超范围使用
详见BLOOM许可证附件A的限制条款
超范围使用
本模型不适用于高风险场景,未设计用于影响个人生计的关键决策。模型输出可能看似真实实则错误。
包括但不限于:
- 生物医学、政治法律或金融领域
- 个人评估(如就业、教育、信贷)
- 关键自动决策、事实内容生成等
滥用
包括