语言:
- 多语言
- 英语
- 法语
- 西班牙语
- 德语
- 希腊语
- 保加利亚语
- 俄语
- 土耳其语
- 阿拉伯语
- 越南语
- 泰语
- 中文
- 印地语
- 斯瓦希里语
- 乌尔都语
许可证: cc-by-nc-4.0
xlm-mlm-xnli15-1024
目录
- 模型详情
- 用途
- 偏差、风险与限制
- 训练详情
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文《跨语言语言模型预训练》中提出。xlm-mlm-xnli15-1024是一个基于掩码语言建模(MLM)目标预训练的Transformer模型,并在英语NLI数据集上进行了微调。模型开发者评估了该模型在15种XNLI语言中做出正确预测的能力(有关XNLI的更多信息,请参见XNLI数据卡片)。
模型描述
- 开发者: Guillaume Lample, Alexis Conneau, 参见相关论文
- 模型类型: 语言模型
- 支持语言: 英语;评估了15种语言(参见XNLI数据卡片)
- 许可证: CC-BY-NC-4.0
- 相关模型: XLM模型
- 更多信息:
用途
直接使用
该模型是一个语言模型,可用于跨语言文本分类。尽管模型是基于英语文本数据微调的,但其在14种其他语言中的句子分类能力已得到评估(参见评估)。
下游使用
该模型可用于与不同语言的自然语言推理相关的下游任务。更多信息请参见相关论文。
超出范围的使用
该模型不应被用于故意制造敌对或疏远人群的环境。
偏差、风险与限制
已有大量研究探讨了语言模型中的偏差和公平性问题(例如,参见Sheng et al. (2021)和Bender et al. (2021))。
建议
用户(包括直接使用和下游使用)应了解该模型的风险、偏差和限制。
训练详情
训练详情摘自相关论文。更多细节请参见论文及其GitHub仓库。
训练数据
模型开发者写道:
我们使用WikiExtractor2从维基百科转储中提取原始句子,并将其作为单语数据用于CLM和MLM目标。对于TLM目标,我们仅使用涉及英语的平行数据,类似于Conneau et al. (2018b)。
- 具体来说,我们使用MultiUN(Ziemski et al., 2016)处理法语、西班牙语、俄语、阿拉伯语和中文,使用IIT Bombay语料库(Anoop et al., 2018)处理印地语。
- 我们从OPUS 3网站(Tiedemann, 2012)提取以下语料库:EUbookshop语料库用于德语、希腊语和保加利亚语,OpenSubtitles 2018用于土耳其语、越南语和泰语,Tanzil用于乌尔都语和斯瓦希里语,GlobalVoices用于斯瓦希里语。
- 对于中文、日语和泰语,我们分别使用Chang et al. (2008)的分词器、Kytea4分词器和PyThaiNLP5分词器。
- 对于其他语言,我们使用Moses(Koehn et al., 2007)提供的分词器,必要时回退到默认的英语分词器。
微调时,开发者使用了英语NLI数据集(参见XNLI数据卡片)。
训练过程
预处理
模型开发者写道:
我们使用fastBPE学习BPE编码并将单词拆分为子词单元。BPE编码是通过从所有语言中采样的句子拼接学习得到的,遵循第3.1节中介绍的方法。
速度、规模与时间
模型开发者写道:
我们使用具有1024个隐藏单元、8个头、GELU激活函数(Hendrycks和Gimpel, 2016)、0.1的dropout率和学习的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba, 2014)、线性预热(Vaswani et al., 2017)和从10^-4到5.10^-4变化的学习率进行训练。
对于CLM和MLM目标,我们使用256个令牌的流和大小为64的迷你批次。与Devlin et al. (2018)不同,迷你批次中的序列可以包含超过两个连续的句子,如第3.2节所述。对于TLM目标,我们采样由长度相似的句子组成的4000个令牌的迷你批次。我们使用语言的平均困惑度作为训练停止标准。对于机器翻译,我们仅使用6层,并创建2000个令牌的迷你批次。
在XNLI上进行微调时,我们使用大小为8或16的迷你批次,并将句子长度限制为256个单词。我们使用80k BPE分割和95k的词汇表,并在XNLI语言的维基百科上训练12层模型。我们从5.10^-4到2.10^-4的范围内采样Adam优化器的学习率,并使用20000个随机样本的小评估周期。我们使用Transformer最后一层的第一个隐藏状态作为随机初始化的最终线性分类器的输入,并微调所有参数。在我们的实验中,使用最后一层的最大池化或平均池化效果不如使用第一个隐藏状态。
我们使用PyTorch(Paszke et al., 2017)实现所有模型,并在64个Volta GPU上训练语言建模任务,在8个GPU上训练机器翻译任务。我们使用float16操作加速训练并减少模型的内存使用。
评估
测试数据、因素与指标
在英语NLI数据集上微调模型后,模型开发者使用XNLI数据和测试准确率指标评估了模型在15种XNLI语言中做出正确预测的能力。更多细节请参见相关论文。
结果
语言 |
en |
fr |
es |
de |
el |
bg |
ru |
tr |
ar |
vi |
th |
zh |
hi |
sw |
ur |
准确率 |
83.2 |
76.5 |
76.3 |
74.2 |
73.1 |
74.0 |
73.1 |
67.8 |
68.5 |
71.2 |
69.2 |
71.9 |
65.7 |
64.6 |
63.4 |
环境影响
碳排放可以使用Lacoste et al. (2019)中提出的机器学习影响计算器进行估算。
- 硬件类型: 64个Volta GPU
- 使用时长: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格
详情摘自相关论文。更多细节请参见论文及其GitHub仓库。
模型架构与目标
xlm-mlm-xnli15-1024是一个基于掩码语言建模(MLM)目标预训练的Transformer模型,并在英语NLI数据集上进行了微调。关于MLM目标,开发者写道:
我们还考虑了Devlin et al. (2018)的掩码语言建模(MLM)目标,也称为Cloze任务(Taylor, 1953)。遵循Devlin et al. (2018),我们从文本流中随机采样15%的BPE令牌,80%的时间用[MASK]令牌替换它们,10%的时间用随机令牌替换,10%的时间保持不变。我们的方法与Devlin et al. (2018)的MLM的区别包括使用任意数量句子(截断为256个令牌)的文本流,而不是句子对。为了平衡罕见和频繁令牌(如标点符号或停用词)之间的不平衡,我们还使用类似于Mikolov et al. (2013b)的方法对频繁输出进行子采样:文本流中的令牌根据其逆频率的平方根成正比的多项分布进行采样。我们的MLM目标如图1所示。
计算基础设施
硬件与软件
开发者写道:
我们使用PyTorch(Paszke et al., 2017)实现所有模型,并在64个Volta GPU上训练语言建模任务,在8个GPU上训练机器翻译任务。我们使用float16操作加速训练并减少模型的内存使用。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
该模型使用语言嵌入来指定推理时使用的语言。更多细节请参见Hugging Face多语言模型推理文档。