umt5-small开源多语言模型 - 覆盖107种语言的文本处理实用工具

首页

Umt5 Small

由 google 开发

基于mC4多语言语料库预训练的统一多语言T5模型，覆盖107种语言

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言预训练 #UniMax采样 #107种语言支持

下载量 17.35k

发布时间 : 7/2/2023

模型简介

UMT5是谷歌研发的多语言文本生成模型，采用UniMax采样策略优化语言分布，适用于跨语言自然语言处理任务。需微调后使用。

模型特点

UniMax采样策略

通过限制语料重复次数优化语言分布，平衡头部/尾部语言覆盖

多语言支持

覆盖107种语言，包括低资源语言

大规模预训练

基于29万亿字符的mC4多语言语料库

模型能力

多语言文本生成

跨语言迁移学习

零样本学习（需微调）

使用案例

自然语言处理

机器翻译

通过微调实现跨语言文本转换

多语言问答系统

构建支持多种语言的智能问答应用

内容生成

多语言内容创作

生成不同语言的营销文案/新闻摘要

🚀 谷歌UMT5模型

UMT5是一个多语言预训练模型，它基于更新版本的mC4语料库进行预训练，覆盖了107种语言。该模型在多语言处理任务上具有很大的潜力，但需要进行微调才能应用于下游任务。

🚀 快速开始

UMT5基于更新版的 mC4 语料库进行预训练，此语料库涵盖了107种语言，包括：南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、绍纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里斯兰语、科萨语、意第绪语、约鲁巴语、祖鲁语。

注意：UMT5仅在mC4语料库上进行了预训练，未进行任何监督训练。因此，该模型在应用于下游任务之前需要进行微调。

📚 详细文档

预训练数据集

其他社区检查点

点击查看

作者信息

Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant

📄 许可证

本项目采用Apache-2.0许可证。

📚 论文摘要

预训练的多语言大语言模型通常使用基于启发式温度的采样方法来平衡不同语言之间的关系。然而，以往的工作并未系统地评估不同预训练语言分布在不同模型规模下的有效性。在本文中，我们提出了一种新的采样方法——UniMax，它能够更均匀地覆盖主流语言，同时通过明确限制每种语言语料库的重复次数来缓解对小语种的过拟合问题。我们在一系列多语言基准测试中，对多种采样策略进行了广泛的消融实验，并改变了模型的规模。我们发现，UniMax的性能优于标准的基于温度的采样方法，并且随着模型规模的增加，其优势依然存在。作为我们的贡献，我们发布了：（i）一个改进和更新后的mC4多语言语料库，包含107种语言的29万亿个字符；（ii）一套使用UniMax采样方法训练的预训练umT5模型检查点。