语言:
- 多语言
- 英语
- 法语
- 西班牙语
- 德语
- 希腊语
- 保加利亚语
- 俄语
- 土耳其语
- 阿拉伯语
- 越南语
- 泰语
- 中文
- 印地语
- 斯瓦希里语
- 乌尔都语
许可证: cc-by-nc-4.0
xlm-mlm-tlm-xnli15-1024
目录
- 模型详情
- 用途
- 偏见、风险与局限性
- 训练详情
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡作者
- 如何开始使用该模型
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文跨语言语言模型预训练中提出。xlm-mlm-tlm-xnli15-1024是一个通过掩码语言建模(MLM)目标和翻译语言建模(TLM)目标预训练的Transformer模型,并在英语NLI数据集上进行了微调。模型开发者评估了该模型在15种XNLI语言中做出正确预测的能力(有关XNLI的更多信息,请参见XNLI数据卡)。
模型描述
- 开发者: Guillaume Lample, Alexis Conneau,参见相关论文
- 模型类型: 语言模型
- 语言(NLP): 英语;在15种语言中评估(参见XNLI数据卡)
- 许可证: CC-BY-NC-4.0
- 相关模型: XLM模型
- 更多信息资源:
用途
直接使用
该模型是一个语言模型,可用于跨语言文本分类。尽管模型是基于英语文本数据微调的,但其在14种其他语言中对句子进行分类的能力已得到评估(参见评估)。
下游使用
该模型可用于与不同语言的自然语言推理相关的下游任务。更多信息请参见相关论文。
超出范围的使用
该模型不应用于故意为人们创造敌对或疏远的环境。
偏见、风险与局限性
大量研究探讨了语言模型中的偏见和公平性问题(例如,参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(包括直接使用和下游使用)应了解该模型的风险、偏见和局限性。
训练详情
训练详情摘自相关论文。更多细节请参见论文中的链接、引用和详细信息。另请参见相关的GitHub仓库以获取更多细节。
训练数据
模型开发者写道:
我们使用WikiExtractor2从Wikipedia转储中提取原始句子,并将其作为单语数据用于CLM和MLM目标。对于TLM目标,我们仅使用涉及英语的平行数据,类似于Conneau等人(2018b)。
- 具体来说,我们使用MultiUN(Ziemski等人,2016)处理法语、西班牙语、俄语、阿拉伯语和中文,使用IIT Bombay语料库(Anoop等人,2018)处理印地语。
- 我们从OPUS 3网站Tiedemann(2012)提取以下语料库:EUbookshop语料库用于德语、希腊语和保加利亚语,OpenSubtitles 2018用于土耳其语、越南语和泰语,Tanzil用于乌尔都语和斯瓦希里语,GlobalVoices用于斯瓦希里语。
- 对于中文、日语和泰语,我们分别使用Chang等人(2008)的分词器、Kytea4分词器和PyThaiNLP5分词器。
- 对于其他所有语言,我们使用Moses(Koehn等人,2007)提供的分词器,必要时回退到默认的英语分词器。
对于微调,开发者使用了英语NLI数据集(参见XNLI数据卡)。
训练过程
预处理
模型开发者写道:
我们使用fastBPE学习BPE编码并将单词分割为子词单元。BPE编码是通过从所有语言中采样的句子串联学习得到的,遵循第3.1节中介绍的方法。
速度、大小与时间
模型开发者写道:
我们使用具有1024个隐藏单元、8个头、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习到的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性预热(Vaswani等人,2017)和从10^−4到5.10^−4变化的学习率来训练我们的模型。
对于CLM和MLM目标,我们使用256个令牌的流和大小为64的小批量。与Devlin等人(2018)不同,小批量中的序列可以包含两个以上的连续句子,如第3.2节所述。对于TLM目标,我们采样由长度相似的句子组成的4000个令牌的小批量。我们使用语言的平均困惑度作为训练停止标准。对于机器翻译,我们仅使用6层,并创建2000个令牌的小批量。
在XNLI上进行微调时,我们使用大小为8或16的小批量,并将句子长度限制为256个单词。我们使用80k BPE分割和95k的词汇表,并在XNLI语言的Wikipedia上训练12层模型。我们从5.10−4到2.10−4的值中采样Adam优化器的学习率,并使用20000个随机样本的小评估周期。我们使用Transformer最后一层的第一个隐藏状态作为随机初始化的最终线性分类器的输入,并微调所有参数。在我们的实验中,使用最后一层的最大池化或平均池化并不比使用第一个隐藏状态更好。
我们在PyTorch(Paszke等人,2017)中实现了所有模型,并在64个Volta GPU上训练语言建模任务,在8个GPU上训练机器翻译任务。我们使用float16操作来加速训练并减少模型的内存使用。
评估
测试数据、因素与指标
在英语NLI数据集上微调模型后,模型开发者使用XNLI数据和测试准确率指标评估了模型在15种XNLI语言中做出正确预测的能力。更多细节请参见相关论文。
结果
语言 |
en |
fr |
es |
de |
el |
bg |
ru |
tr |
ar |
vi |
th |
zh |
hi |
sw |
ur |
准确率 |
85.0 |
78.7 |
78.9 |
77.8 |
76.6 |
77.4 |
75.3 |
72.5 |
73.1 |
76.1 |
73.2 |
76.5 |
69.6 |
68.4 |
67.3 |
环境影响
碳排放可以使用Lacoste等人(2019)中提出的机器学习影响计算器进行估算。
- 硬件类型: 64个Volta GPU
- 使用时间: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格
细节摘自相关论文。更多细节请参见论文中的链接、引用和详细信息。另请参见相关的GitHub仓库以获取更多细节。
模型架构与目标
xlm-mlm-tlm-xnli15-1024是一个通过掩码语言建模(MLM)目标和翻译语言建模(TLM)目标预训练的Transformer模型,并在英语NLI数据集上进行了微调。关于TLM目标,开发者写道:
我们引入了一种新的翻译语言建模(TLM)目标,用于改进跨语言预训练。我们的TLM目标是MLM的扩展,其中我们不再考虑单语文本流,而是将平行句子连接起来,如图1所示。我们随机掩码源句子和目标句子中的单词。为了预测英语句子中被掩码的单词,模型可以关注周围的英语单词或法语翻译,从而鼓励模型对齐英语和法语的表示。
计算基础设施
硬件与软件
开发者写道:
我们在PyTorch(Paszke等人,2017)中实现了所有模型,并在64个Volta GPU上训练语言建模任务,在8个GPU上训练机器翻译任务。我们使用float16操作来加速训练并减少模型的内存使用。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡作者
此模型卡由Hugging Face团队编写。
如何开始使用该模型
该模型使用语言嵌入来指定推理时使用的语言。更多细节请参见Hugging Face多语言模型推理文档。