XLM-mlm-enfr-1024开源模型 - 支持跨语言任务的实用工具

首页

Xlm Mlm Enfr 1024

由 FacebookAI 开发

XLM-mlm-enfr-1024是基于英语-法语掩码语言建模目标预训练的Transformer模型，支持跨语言任务。

大型语言模型

Transformers

支持多种语言#英语-法语双语 #掩码语言建模 #跨语言预训练

下载量 344

发布时间 : 3/2/2022

模型简介

该模型使用语言嵌入来指定推理时使用的语言，主要用于英语和法语之间的掩码语言建模任务。

模型特点

跨语言能力

支持英语和法语之间的跨语言任务处理

语言嵌入

使用语言嵌入来指定推理时使用的语言

高效训练

采用float16操作加速训练并减少内存使用

模型能力

英语-法语掩码语言建模

跨语言文本处理

使用案例

自然语言处理

文本填充

预测和填充文本中的缺失部分

跨语言文本理解

处理和理解英语和法语文本

🚀 xlm-mlm-enfr-1024

XLM-mlm-enfr-1024 是一个针对英语 - 法语进行预训练的语言模型，采用掩码语言建模（MLM）目标，可用于掩码语言建模等任务。

🚀 快速开始

本模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face 多语言推理模型文档。

✨ 主要特性

基于 XLM 模型架构，适用于英语 - 法语。
采用掩码语言建模（MLM）目标进行预训练。
可用于掩码语言建模及相关下游任务。

📚 详细文档

🔍 模型详情

XLM 模型由 Guillaume Lample 和 Alexis Conneau 在论文 Cross-lingual Language Model Pretraining 中提出。xlm-mlm-enfr-1024 是一个针对英语 - 法语使用掩码语言建模（MLM）目标进行预训练的 Transformer 模型。该模型使用语言嵌入来指定推理时使用的语言。更多详细信息请参阅 Hugging Face 多语言推理模型文档。

模型描述

属性	详情
开发者	Guillaume Lample, Alexis Conneau，详见相关论文
模型类型	语言模型
语言（NLP）	英语 - 法语
许可证	CC - BY - NC - 4.0
相关模型	xlm-clm-ende-1024，xlm-clm-ende-1024，xlm-mlm-ende-1024，xlm-mlm-enro-1024
更多信息资源	相关论文，GitHub 仓库，Hugging Face 多语言推理模型文档

💡 使用场景

直接使用

该模型是一个语言模型，可用于掩码语言建模。

下游使用

要了解更多关于此任务和潜在的下游用途，请参阅 Hugging Face 填充掩码文档和 Hugging Face 多语言推理模型文档。

超出适用范围的使用

该模型不应被用于故意为人们创造敌对或排斥性的环境。

⚠️ 偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng 等人 (2021) 和 Bender 等人 (2021)）。

建议

用户（包括直接用户和下游用户）应该了解该模型的风险、偏差和局限性。

🏋️‍ 训练

模型开发者表示：

在所有实验中，我们使用具有 1024 个隐藏单元、8 个头、GELU 激活函数（Hendrycks 和 Gimpel，2016）、0.1 的丢弃率和学习到的位置嵌入的 Transformer 架构。我们使用 Adam 优化器（Kingma 和 Ba，2014）、线性热身（Vaswani 等人，2017）和从 10^−4 到 5.10^−4 的学习率来训练我们的模型。

有关训练数据和训练过程的链接、引用和更多详细信息，请参阅相关论文。

模型开发者还表示：

如果您使用这些模型，您应该使用相同的数据预处理 / BPE 代码来预处理您的数据。

更多详细信息请参阅相关 GitHub 仓库。

🧪 评估

测试数据、因素和指标

模型开发者使用 BLEU 指标在 WMT'14 英语 - 法语数据集上对模型进行了评估。有关测试数据、因素和指标的更多详细信息，请参阅相关论文。

结果

有关 xlm - mlm - enfr - 1024 的结果，请参阅相关论文的表 1 和表 2。

🌱 环境影响

可以使用 Lacoste 等人 (2019) 中提出的机器学习影响计算器来估算碳排放。

硬件类型：需要更多信息
使用时长：需要更多信息
云服务提供商：需要更多信息
计算区域：需要更多信息
碳排放：需要更多信息

🔧 技术细节

模型开发者表示：

我们在 PyTorch（Paszke 等人，2017）中实现了所有模型，并在 64 个 Volta GPU 上进行语言建模任务的训练，在 8 个 GPU 上进行机器翻译任务的训练。我们使用 float16 操作来加速训练并减少模型的内存使用。

更多详细信息请参阅相关论文。

📑 引用

BibTeX：

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA：