muril-base-cased开源模型 - 专为印度语境优化，支持17种印度语言文本处理

首页

Muril Base Cased

由 google 开发

MuRIL是一个基于17种印度语言及其转写文本预训练的BERT模型，针对印度语境优化

大型语言模型开源协议:Apache-2.0 #印度多语言模型 #转写文本优化 #零样本迁移

下载量 12.72k

发布时间 : 3/2/2022

模型简介

MuRIL是基于BERT架构的多语言模型，专门针对17种印度语言进行预训练，包含对转写文本的特殊优化

模型特点

多语言支持

支持17种印度语言及其转写文本

转写优化

专门针对印度语言转写现象进行优化

平行数据训练

使用翻译和转写文本对进行预训练

低资源语言优化

采用0.3的上采样指数值提升低资源语言性能

模型能力

多语言文本理解

转写文本处理

掩码语言建模

跨语言迁移学习

使用案例

自然语言处理

命名实体识别

印度语言的命名实体识别任务

PANX任务平均F1达77.60%，显著优于mBERT

词性标注

印度语言的词性标注任务

UDPOS任务平均F1达75.02%，优于mBERT

跨语言自然语言推理

印度语言的XNLI任务

转写文本准确率从39.23%提升至64.70%

🚀 MuRIL：印度语言的多语言表征模型

MuRIL是一个在17种印度语言及其音译版本上进行预训练的BERT模型。在本仓库中，我们发布了预训练模型（保留了MLM层，可进行掩码词预测）。此外，我们还在 TFHub 上发布了带有额外预处理模块的编码器，该模块可将原始文本处理为编码器所需的输入格式。你可以在这篇论文中了解关于MuRIL的更多细节。

🚀 快速开始

你可以直接从本仓库获取预训练模型，也可以从 TFHub 获取带有预处理模块的编码器。

✨ 主要特性

多语言支持：在17种印度语言及其音译版本上进行预训练。
可灵活使用：发布了保留MLM层的预训练模型，支持掩码词预测；同时也提供了带有预处理模块的编码器。

📚 详细文档

概述

该模型采用BERT基础架构 [1]，使用维基百科 [2]、Common Crawl [3]、PMINDIA [4] 和Dakshina [5] 语料库，针对17种 [6] 印度语言从头开始进行预训练。

我们采用了类似于多语言BERT的训练范式，并进行了以下修改：

在训练中加入了翻译和音译的段落对。
上采样时采用0.3的指数值而非0.7，这已被证明可以提高低资源语言的性能 [7]。

更多细节请参阅训练部分。

训练

MuRIL模型在单语段落和并行段落上进行预训练，详情如下：

单语数据：我们使用了来自维基百科和Common Crawl的17种印度语言的公开可用语料库。
并行数据：我们有两种类型的并行数据：
- 翻译数据：我们使用Google NMT管道对上述单语语料库进行翻译。将翻译后的段落对作为输入。我们还使用了公开可用的PMINDIA语料库。
- 音译数据：我们使用IndicTrans [8] 库对维基百科进行音译。将音译后的段落对作为输入。我们还使用了公开可用的Dakshina数据集。

我们使用0.3的指数值来计算低资源语言上采样的重复乘数，并相应地设置重复因子。注意，我们仅对维基百科进行音译对处理。

该模型使用自监督掩码语言建模任务进行训练。我们进行全词掩码，最多进行80次预测。模型训练了1000K步，批次大小为4096，最大序列长度为512。

可训练参数

模块中的所有参数均可训练，建议对所有参数进行微调。

使用与限制

该模型旨在用于印度语言的各种下游NLP任务。该模型也在音译数据上进行了训练，这在印度语境中是常见现象。预计该模型在预训练所用语言（即17种印度语言）之外的语言上表现不佳。

评估

我们提供了该模型在一组下游任务上的微调结果。我们从XTREME基准测试中选择这些任务，并在印度语言测试集上进行评估。我们还对测试集进行音译并进行评估。除TyDiQA外，我们使用与 [9] 相同的微调设置，在TyDiQA任务中，我们使用额外的SQuAD v1.1英语训练数据，与 [10] 类似。对于Tatoeba，我们不对模型进行微调，而是使用最后一层的池化输出作为句子嵌入。所有结果均在零样本设置下计算，英语作为高资源训练集语言。

任务	指标	ml	ta	te	en	bn	hi	mr	ur	平均
PANX	F1	75.74	71.86	64.99	84.43	85.97	78.09	74.63	85.07	77.60
UDPOS	F1				95.55	64.47	82.95	62.57	85.63	58.93
XNLI	准确率				83.85	70.66			67.70	74.07
Tatoeba	准确率	26.35	36.81	17.52		31.50	26.60		17.10	25.15
XQUAD	F1/EM				84.31/72.94		73.93/58.32			79.12/65.63
MLQA	F1/EM				80.28/67.37		67.34/50.22			73.81/58.80
TyDiQA	F1/EM				74.10/64.55	78.03/66.37		73.95/46.94		75.36/59.28

以下是上述测试集音译版本的结果：

任务	指标	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	平均
PANX	F1	63.39	7.00	53.62	72.94	69.75	68.77	68.41	57.70
UDPOS	F1					63.09	67.19	58.40	65.30
XNLI	准确率					68.24		61.16
Tatoeba	准确率	10.33	11.07	11.54	8.10	14.90	7.20	13.70	10.98

参考文献

[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018. [2] Wikipedia [3] [Common Crawl](http://commoncrawl.org/the - data/) [4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html) [5] [Dakshina](https://github.com/google - research - datasets/dakshina) [6] 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。 [7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019). [8] [IndicTrans](https://github.com/libindic/indic - trans) [9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080. [10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.

引用

如果你在应用中发现MuRIL很有用，请引用以下论文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}