language:
- 多语言
- 英语
- 法语
license: cc-by-nc-4.0
xlm-mlm-enfr-1024
目录
- 模型详情
- 用途
- 偏见、风险与局限性
- 训练
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文《跨语言语言模型预训练》中提出。xlm-mlm-enfr-1024是一个基于英语-法语掩码语言建模(MLM)目标预训练的Transformer模型。该模型使用语言嵌入来指定推理时使用的语言。更多细节请参阅Hugging Face多语言模型推理文档。
模型描述
用途
直接使用
该模型是一个语言模型,可用于掩码语言建模任务。
下游使用
关于此任务及潜在下游应用的更多信息,请参阅Hugging Face的填充掩码文档和多语言模型推理文档。
超出范围的使用
该模型不应用于故意制造敌对或疏远人群的环境。
偏见、风险与局限性
已有大量研究探讨了语言模型中的偏见和公平性问题(例如参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(包括直接使用和下游使用)应了解该模型的风险、偏见和局限性。
训练
模型开发者写道:
在所有实验中,我们使用具有1024个隐藏单元、8个头、GELU激活函数(Hendrycks和Gimpel,2016)、0.1的dropout率和学习位置嵌入的Transformer架构。我们使用Adam优化器(Kingma和Ba,2014)、线性预热(Vaswani等人,2017)以及从10^-4到5.10^-4变化的学习率来训练我们的模型。
更多关于训练数据和训练过程的细节,请参阅相关论文。
模型开发者还指出:
如果使用这些模型,您应该使用相同的数据预处理/BPE代码来预处理您的数据。
更多细节请参见相关GitHub仓库。
评估
测试数据、因素与指标
模型开发者在WMT'14英语-法语数据集上使用BLEU指标评估了该模型。关于测试数据、因素和指标的更多细节,请参阅相关论文。
结果
关于xlm-mlm-enfr-1024的结果,请参见相关论文的表1和表2。
环境影响
碳排放可以使用Lacoste等人(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 需要更多信息
- 使用时长: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格
模型开发者写道:
我们在PyTorch(Paszke等人,2017)中实现了所有模型,并在64块Volta GPU上训练语言建模任务,在8块GPU上训练机器翻译任务。我们使用float16操作来加速训练并减少模型的内存使用。
更多细节请参阅相关论文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
需要更多信息。该模型使用语言嵌入来指定推理时使用的语言。更多细节请参阅Hugging Face多语言模型推理文档。