🚀 🌌 mGPT 13B
mGPT 13B 是一个多语言语言模型。它基于来自 25 个语系的 61 种语言进行训练(具体语言列表见下文),能为多语言场景提供强大的语言处理能力。
🚀 快速开始
文档中未提供快速开始相关内容,若有使用需求,可参考后续详细信息进行操作。
✨ 主要特性
- 多语言支持:支持 61 种来自 25 个语系的语言,覆盖范围广泛。
- 大规模数据训练:在 600GB 的文本数据上进行预训练,数据来源主要为 MC4 和维基百科。
- 数据优化处理:对训练数据进行去重处理,通过 64 位哈希和文本压缩率过滤,保证数据质量。
📚 详细文档
数据集
该模型在 600GB 的文本上进行预训练,数据主要来源于 MC4 和维基百科。训练数据经过去重处理,具体方式为对语料库中的每个文本进行 64 位哈希,仅保留具有唯一哈希值的文本。同时,使用 zlib4 基于文本压缩率对文档进行过滤,丢弃压缩率过高和过低的去重文本。
以下是预训练语料库中每种语言的对数尺度标记数量表:

语言支持
支持以下语言:
南非荷兰语 (af)、阿拉伯语 (ar)、亚美尼亚语 (hy)、阿塞拜疆语 (az)、巴斯克语 (eu)、巴什基尔语 (ba)、白俄罗斯语 (be)、孟加拉语 (bn)、保加利亚语 (bg)、缅甸语 (my)、布里亚特语 (bxr)、楚瓦什语 (cv)、丹麦语 (da)、英语 (en)、爱沙尼亚语 (et)、芬兰语 (fi)、法语 (fr)、格鲁吉亚语 (ka)、德语 (de)、希腊语 (el)、希伯来语 (he)、印地语 (hi)、匈牙利语 (hu)、印尼语 (id)、意大利语 (it)、日语 (ja)、爪哇语 (jv)、卡尔梅克语 (xal)、哈萨克语 (kk)、韩语 (ko)、吉尔吉斯语 (ky)、拉脱维亚语 (lv)、立陶宛语 (lt)、马来语 (ms)、马拉雅拉姆语 (ml)、马拉地语 (mr)、蒙古语 (mn)、奥塞梯语 (os)、波斯语 (fa)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、西班牙语 (es)、瑞典语 (sv)、斯瓦希里语 (sw)、鞑靼语 (tt)、泰卢固语 (te)、泰语 (th)、土耳其语 (tr)、土库曼语 (tk)、图瓦语 (tyv)、乌克兰语 (uk)、乌兹别克语 (uz)、越南语 (vi)、雅库特语 (sax)、约鲁巴语 (yo)
按语系分类
语系 |
语言 |
亚非语系 |
阿拉伯语 (ar)、希伯来语 (he) |
南亚语系 |
越南语 (vi) |
南岛语系 |
印尼语 (id)、爪哇语 (jv)、马来语 (ms)、他加禄语 (tl) |
波罗的语族 |
拉脱维亚语 (lv)、立陶宛语 (lt) |
巴斯克语系 |
巴斯克语 (eu) |
达罗毗荼语系 |
马拉雅拉姆语 (ml)、泰米尔语 (ta)、泰卢固语 (te) |
印欧语系(亚美尼亚语族) |
亚美尼亚语 (hy) |
印欧语系(印度 - 雅利安语族) |
孟加拉语 (bn)、马拉地语 (mr)、印地语 (hi)、乌尔都语 (ur) |
印欧语系(日耳曼语族) |
南非荷兰语 (af)、丹麦语 (da)、英语 (en)、德语 (de)、瑞典语 (sv) |
印欧语系(罗曼语族) |
法语 (fr)、意大利语 (it)、葡萄牙语 (pt)、罗马尼亚语 (ro)、西班牙语 (es) |
印欧语系(希腊语族) |
希腊语 (el) |
印欧语系(伊朗语族) |
奥塞梯语 (os)、塔吉克语 (tg)、波斯语 (fa) |
日本语系 |
日语 (ja) |
卡特维尔语系 |
格鲁吉亚语 (ka) |
朝鲜语系 |
韩语 (ko) |
壮侗语系 |
泰语 (th) |
蒙古语族 |
布里亚特语 (bxr)、卡尔梅克语 (xal)、蒙古语 (mn) |
尼日尔 - 刚果语系 |
斯瓦希里语 (sw)、约鲁巴语 (yo) |
斯拉夫语族 |
白俄罗斯语 (be)、保加利亚语 (bg)、俄语 (ru)、乌克兰语 (uk)、波兰语 (pl) |
汉藏语系 |
缅甸语 (my) |
突厥语族(葛逻禄语支) |
乌兹别克语 (uz) |
突厥语族(钦察语支) |
巴什基尔语 (ba)、哈萨克语 (kk)、吉尔吉斯语 (ky)、鞑靼语 (tt) |
突厥语族(乌古斯语支) |
阿塞拜疆语 (az)、楚瓦什语 (cv)、土耳其语 (tr)、土库曼语 (tk) |
突厥语族(西伯利亚语支) |
图瓦语 (tyv)、雅库特语 (sax) |
乌拉尔语系 |
爱沙尼亚语 (et)、芬兰语 (fi)、匈牙利语 (hu) |
技术细节
- 训练配置:模型在 16 个 V100 GPU 上进行 600k 个训练步骤,使用一组固定的超参数:词汇表大小为 100k,上下文窗口为 2048,学习率为 2e - 4,批量大小为 4。
- 架构基础:mGPT 架构基于 GPT - 3,参考了 Brown 等人的架构描述,代码基于 HuggingFace 库(Wolf 等人,2020)中的 GPT - 2(Radford 等人,2019)和 Megatron - LM(Shoeybi 等人,2019)。
困惑度
mGPT13B 模型在大多数语言中,困惑度得分在 2 到 10 之间,表现出色。这些语言包括达罗毗荼语系(马拉雅拉姆语、泰米尔语、泰卢固语)、印度 - 雅利安语系(孟加拉语、印地语、马拉地语)、斯拉夫语族(白俄罗斯语、乌克兰语、俄语、保加利亚语)、汉藏语系(缅甸语)、钦察语支(巴什基尔语、哈萨克语)等。仅有来自不同语系的七种语言的困惑度较高,最高可达 20。
按语言的困惑度结果

按语系的困惑度结果

分数是每个语系内语言数量的平均值。
📄 许可证
该项目采用 MIT 许可证。