mGPT-13B开源多语言语言模型 - 支持61种语言，强大语言处理能力

首页

Mgpt 13B

由 ai-forever 开发

mGPT 13B 是一个多语言语言模型，支持61种语言，覆盖25个语系，基于600GB文本数据训练，具有强大的多语言处理能力。

大型语言模型

Transformers

支持多种语言开源协议:MIT #多语言覆盖 #大规模预训练 #低困惑度

下载量 4,742

发布时间 : 4/18/2023

模型简介

mGPT 13B 是一个基于GPT-3架构的多语言语言模型，专注于多语言场景下的文本生成和理解任务。

模型特点

广泛的多语言支持

支持61种语言，覆盖25个语系，包括许多低资源语言

大规模数据训练

在600GB的文本数据上进行预训练，数据来源主要为MC4和维基百科

数据质量优化

通过64位哈希去重和文本压缩率过滤，确保训练数据质量

出色的困惑度表现

在大多数支持语言中困惑度得分在2到10之间，表现优异

模型能力

多语言文本生成

跨语言文本理解

多语言问答系统

语言翻译辅助

使用案例

自然语言处理

多语言聊天机器人

构建支持多种语言的智能对话系统

可流畅处理61种语言的用户输入

跨语言信息检索

实现不同语言文档之间的语义搜索

利用多语言表示能力提高检索准确性

教育技术

语言学习辅助工具

为学习多种语言的学习者提供智能辅助

支持61种语言的语法分析和示例生成

🚀 🌌 mGPT 13B

mGPT 13B 是一个多语言语言模型。它基于来自 25 个语系的 61 种语言进行训练（具体语言列表见下文），能为多语言场景提供强大的语言处理能力。

🚀 快速开始

文档中未提供快速开始相关内容，若有使用需求，可参考后续详细信息进行操作。

✨ 主要特性

多语言支持：支持 61 种来自 25 个语系的语言，覆盖范围广泛。
大规模数据训练：在 600GB 的文本数据上进行预训练，数据来源主要为 MC4 和维基百科。
数据优化处理：对训练数据进行去重处理，通过 64 位哈希和文本压缩率过滤，保证数据质量。

📚 详细文档

数据集

该模型在 600GB 的文本上进行预训练，数据主要来源于 MC4 和维基百科。训练数据经过去重处理，具体方式为对语料库中的每个文本进行 64 位哈希，仅保留具有唯一哈希值的文本。同时，使用 zlib4 基于文本压缩率对文档进行过滤，丢弃压缩率过高和过低的去重文本。

以下是预训练语料库中每种语言的对数尺度标记数量表：

语言支持

支持以下语言：南非荷兰语 (af)、阿拉伯语 (ar)、亚美尼亚语 (hy)、阿塞拜疆语 (az)、巴斯克语 (eu)、巴什基尔语 (ba)、白俄罗斯语 (be)、孟加拉语 (bn)、保加利亚语 (bg)、缅甸语 (my)、布里亚特语 (bxr)、楚瓦什语 (cv)、丹麦语 (da)、英语 (en)、爱沙尼亚语 (et)、芬兰语 (fi)、法语 (fr)、格鲁吉亚语 (ka)、德语 (de)、希腊语 (el)、希伯来语 (he)、印地语 (hi)、匈牙利语 (hu)、印尼语 (id)、意大利语 (it)、日语 (ja)、爪哇语 (jv)、卡尔梅克语 (xal)、哈萨克语 (kk)、韩语 (ko)、吉尔吉斯语 (ky)、拉脱维亚语 (lv)、立陶宛语 (lt)、马来语 (ms)、马拉雅拉姆语 (ml)、马拉地语 (mr)、蒙古语 (mn)、奥塞梯语 (os)、波斯语 (fa)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、西班牙语 (es)、瑞典语 (sv)、斯瓦希里语 (sw)、鞑靼语 (tt)、泰卢固语 (te)、泰语 (th)、土耳其语 (tr)、土库曼语 (tk)、图瓦语 (tyv)、乌克兰语 (uk)、乌兹别克语 (uz)、越南语 (vi)、雅库特语 (sax)、约鲁巴语 (yo)

按语系分类

语系	语言
亚非语系	阿拉伯语 (ar)、希伯来语 (he)
南亚语系	越南语 (vi)
南岛语系	印尼语 (id)、爪哇语 (jv)、马来语 (ms)、他加禄语 (tl)
波罗的语族	拉脱维亚语 (lv)、立陶宛语 (lt)
巴斯克语系	巴斯克语 (eu)
达罗毗荼语系	马拉雅拉姆语 (ml)、泰米尔语 (ta)、泰卢固语 (te)
印欧语系（亚美尼亚语族）	亚美尼亚语 (hy)
印欧语系（印度 - 雅利安语族）	孟加拉语 (bn)、马拉地语 (mr)、印地语 (hi)、乌尔都语 (ur)
印欧语系（日耳曼语族）	南非荷兰语 (af)、丹麦语 (da)、英语 (en)、德语 (de)、瑞典语 (sv)
印欧语系（罗曼语族）	法语 (fr)、意大利语 (it)、葡萄牙语 (pt)、罗马尼亚语 (ro)、西班牙语 (es)
印欧语系（希腊语族）	希腊语 (el)
印欧语系（伊朗语族）	奥塞梯语 (os)、塔吉克语 (tg)、波斯语 (fa)
日本语系	日语 (ja)
卡特维尔语系	格鲁吉亚语 (ka)
朝鲜语系	韩语 (ko)
壮侗语系	泰语 (th)
蒙古语族	布里亚特语 (bxr)、卡尔梅克语 (xal)、蒙古语 (mn)
尼日尔 - 刚果语系	斯瓦希里语 (sw)、约鲁巴语 (yo)
斯拉夫语族	白俄罗斯语 (be)、保加利亚语 (bg)、俄语 (ru)、乌克兰语 (uk)、波兰语 (pl)
汉藏语系	缅甸语 (my)
突厥语族（葛逻禄语支）	乌兹别克语 (uz)
突厥语族（钦察语支）	巴什基尔语 (ba)、哈萨克语 (kk)、吉尔吉斯语 (ky)、鞑靼语 (tt)
突厥语族（乌古斯语支）	阿塞拜疆语 (az)、楚瓦什语 (cv)、土耳其语 (tr)、土库曼语 (tk)
突厥语族（西伯利亚语支）	图瓦语 (tyv)、雅库特语 (sax)
乌拉尔语系	爱沙尼亚语 (et)、芬兰语 (fi)、匈牙利语 (hu)

技术细节

训练配置：模型在 16 个 V100 GPU 上进行 600k 个训练步骤，使用一组固定的超参数：词汇表大小为 100k，上下文窗口为 2048，学习率为 2e - 4，批量大小为 4。
架构基础：mGPT 架构基于 GPT - 3，参考了 Brown 等人的架构描述，代码基于 HuggingFace 库（Wolf 等人，2020）中的 GPT - 2（Radford 等人，2019）和 Megatron - LM（Shoeybi 等人，2019）。

困惑度

mGPT13B 模型在大多数语言中，困惑度得分在 2 到 10 之间，表现出色。这些语言包括达罗毗荼语系（马拉雅拉姆语、泰米尔语、泰卢固语）、印度 - 雅利安语系（孟加拉语、印地语、马拉地语）、斯拉夫语族（白俄罗斯语、乌克兰语、俄语、保加利亚语）、汉藏语系（缅甸语）、钦察语支（巴什基尔语、哈萨克语）等。仅有来自不同语系的七种语言的困惑度较高，最高可达 20。