语言:
- 多语言
- 英语
- 德语
许可证: cc-by-nc-4.0
xlm-mlm-ende-1024
目录
- 模型详情
- 用途
- 偏见、风险与局限性
- 训练
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文《跨语言语言模型预训练》中提出。xlm-mlm-ende-1024是一个基于掩码语言建模(MLM)目标预训练的英语-德语Transformer模型。该模型使用语言嵌入来指定推理时使用的语言。更多详情请参阅Hugging Face多语言模型推理文档。
模型描述
用途
直接使用
该模型是一个语言模型,可用于掩码语言建模任务。
下游使用
关于该任务及潜在下游应用的更多信息,请参阅Hugging Face的填充掩码文档和多语言模型推理文档。
超出范围的使用
该模型不应被用于故意制造敌对或疏远人群的环境。
偏见、风险与局限性
大量研究已探讨了语言模型中的偏见和公平性问题(参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(包括直接使用和下游应用)应了解该模型的风险、偏见和局限性。
训练
模型开发者写道:
在所有实验中,我们使用具有1024个隐藏单元、8个头、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习的位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性预热(Vaswani等人,2017)和从10^−4到5.10^−4变化的学习率来训练我们的模型。
更多关于训练数据和训练过程的详细信息,请参阅相关论文。
模型开发者还指出:
如果使用这些模型,应采用相同的数据预处理/BPE编码来处理数据。
更多详情请参见相关GitHub仓库。
评估
测试数据、因素与指标
模型开发者在WMT'16英语-德语数据集上使用BLEU指标评估了该模型。关于测试数据、因素和指标的更多详情,请参阅相关论文。
结果
xlm-mlm-ende-1024的结果请参见相关论文的表1和表2。
环境影响
碳排放量可以使用Lacoste等人(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 需要更多信息
- 使用时长: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格
模型开发者写道:
我们所有的模型都在PyTorch(Paszke等人,2017)中实现,语言建模任务在64块Volta GPU上训练,机器翻译任务在8块GPU上训练。我们使用float16运算来加速训练并减少模型的内存占用。
更多详情请参阅相关论文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
需要更多信息。该模型使用语言嵌入来指定推理时使用的语言。更多详情请参阅Hugging Face多语言模型推理文档。