muril-large-cased开源多语言模型 - 支持17种印度语言及转写文本处理

首页

Muril Large Cased

由 google 开发

基于BERT大型架构的多语言印度语言预训练模型，涵盖17种印度语言及其转写版本

大型语言模型

Transformers

#印度多语言处理 #转写文本优化 #低资源语言增强

下载量 6,307

发布时间 : 3/2/2022

模型简介

MuRIL是针对印度语言优化的多语言表征模型，通过整合翻译和转写数据提升低资源语言性能，适用于印度语言的NLP任务

模型特点

多语言转写优化

同时训练原始文本与转写文本对，专门处理印度常见的语言转写现象

低资源语言增强

采用0.3指数上采样策略，显著提升低资源语言的模型性能

平行数据训练

整合翻译数据（Google NMT）和转写数据（IndicTrans）进行联合训练

模型能力

多语言文本理解

跨语言转写处理

命名实体识别

文本分类

问答系统

使用案例

政府服务

多语言政策文件分析

处理印度不同语言版本的政府文件

PANX任务F1值达77.7%

教育

跨语言教育资源处理

自动处理不同印度语言版本的教育材料

TyDiQA任务F1值提升3%

🚀 MuRIL Large

MuRIL Large是一个基于BERT架构的大型预训练模型，专为印度语言设计。它在17种印度语言及其音译版本上进行了预训练，能够为印度语言的自然语言处理任务提供强大的支持。

🚀 快速开始

MuRIL Large模型可用于多种印度语言的下游NLP任务。由于文档未提供具体使用代码示例，你可以根据模型的输入输出要求，结合自己的任务场景进行使用。

✨ 主要特性

多语言支持：该模型使用BERT大型架构，针对17种印度语言及其音译版本进行了从头开始的预训练，支持多种印度语言的处理。
训练范式优化：采用了类似于多语言BERT的训练范式，并进行了一些改进。包括在训练中加入翻译和音译片段对，以及在采样时使用0.3的指数值（而非0.7），以提高低资源语言的性能。

🔧 技术细节

训练数据

单语数据：使用了来自维基百科和Common Crawl的17种印度语言的公开可用语料库。
平行数据：
- 翻译数据：通过Google NMT管道获取上述单语语料库的翻译，并使用公开可用的PMINDIA语料库。
- 音译数据：使用IndicTrans库获取维基百科的音译，并使用公开可用的Dakshina数据集。

训练参数设置

上采样指数：使用0.3的指数值来计算低资源语言的重复乘数，以进行上采样，并相应地设置重复因子。
训练任务：使用自监督的掩码语言建模任务进行训练，采用全词掩码，最大预测数为80。
训练步数和批次大小：模型训练了1500K步，批次大小为8192，最大序列长度为512。

可训练参数

模块中的所有参数都是可训练的，建议对所有参数进行微调。

📦 使用与限制

用途

该模型旨在用于印度语言的各种下游NLP任务，并且在音译数据上进行了训练，适用于印度语境中常见的音译现象。

限制

该模型仅在17种印度语言上进行了训练，对于其他语言的性能可能不佳。

📊 评估结果

下游任务微调结果

任务	指标	语言	XLM - R (Large)	MuRIL (Large)
PANX	F1	bn, en, hi, ml, mr, ta, te, ur	68.0（平均）	77.7（平均）
UDPOS	F1	en, hi, mr, ta, te, ur	79.2（平均）	77.3（平均）
XNLI	准确率	en, hi, ur	78.7（平均）	78.6（平均）
XQUAD	F1/EM	en, hi	81.6/67.7（平均）	83.3/70.1（平均）
MLQA	F1/EM	en, hi	77.1/61.9（平均）	78.3/62.9（平均）
TyDiQA	F1/EM	en, bn, te	68.5/49.4（平均）	71.5/56.6（平均）

微调超参数

任务	批次大小	学习率	轮数	热身比例
PANX	32	2e - 5	10	0.1
UDPOS	64	5e - 6	10	0.1
XNLI	128	2e - 5	5	0.1
XQuAD	32	3e - 5	2	0.1
MLQA	32	3e - 5	2	0.1
TyDiQA	32	3e - 5	3	0.1

📖 参考文献

[1] Jacob Devlin, Ming - Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre - training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018. [2] Wikipedia [3] [Common Crawl](http://commoncrawl.org/the - data/) [4] [PMINDIA](http://lotus.kuee.kyoto - u.ac.jp/WAT/indic - multilingual/index.html) [5] [Dakshina](https://github.com/google - research - datasets/dakshina) [6] Assamese (as), Bengali (bn), English (en), Gujarati (gu), Hindi (hi), Kannada (kn), Kashmiri (ks), Malayalam (ml), Marathi (mr), Nepali (ne), Oriya (or), Punjabi (pa), Sanskrit (sa), Sindhi (sd), Tamil (ta), Telugu (te) and Urdu (ur). [7] Conneau, Alexis, et al. Unsupervised cross - lingual representation learning at scale. arXiv preprint arXiv:1911.02116 (2019). [8] [IndicTrans](https://github.com/libindic/indic - trans) [9] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi - task benchmark for evaluating cross - lingual generalization. arXiv preprint arXiv:2003.11080. [10] Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross - lingual Language Understanding. arXiv preprint arXiv:2009.05166.

📄 引用

如果你在应用中发现MuRIL很有用，请引用以下论文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}