语言支持:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 加泰罗尼亚语
- 宿务语
- 科西嘉语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 菲律宾语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 夏威夷语
- 印地语
- 苗语
- 海地克里奥尔语
- 匈牙利语
- 亚美尼亚语
- 伊博语
- 冰岛语
- 意大利语
- 希伯来语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 卢森堡语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 毛利语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 马耳他语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 齐切瓦语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 萨摩亚语
- 修纳语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 塞索托语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 塔吉克语
- 泰语
- 土耳其语
- 乌克兰语
- 未定义语言
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 约鲁巴语
- 中文
- 祖鲁语
数据集:
许可协议:apache-2.0
谷歌UMT5项目
UMT5基于升级版mC4多语种语料库预训练,覆盖107种语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马尔加什语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、修纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、塞索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里斯兰语、科萨语、意第绪语、约鲁巴语、祖鲁语。
注意:UMT5仅通过mC4进行无监督预训练,未包含任何监督训练。因此使用前需针对下游任务进行微调。
预训练数据集:mC4多语种语料库
其他社区检查点:此处查阅
论文:UniMax:大规模多语言预训练中更公平有效的语言采样方法
作者:Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant
摘要
预训练多语言大模型传统上采用基于启发式温度采样的方法来平衡不同语言。然而先前研究未能系统评估不同预训练语言分布对模型规模的影响。本文提出UniMax新型采样方法,通过对每种语言语料设置明确重复上限,在保证头部语言均匀覆盖的同时避免尾部语言过拟合。我们通过多语言基准测试套件开展系列消融实验,验证不同采样策略在不同模型规模下的表现。研究发现UniMax优于标准温度采样法,且优势随模型规模扩大持续显现。作为研究贡献的一部分,我们发布:(i) 升级版mC4多语种语料库,涵盖107种语言共29万亿字符;(ii) 采用UniMax采样训练的umT5预训练模型检查点套件。