XLM-mlm-100-1280开源跨语言模型 - 基于100种语言维基文本助力语言处理

首页

Xlm Mlm 100 1280

由 FacebookAI 开发

XLM模型是基于100种语言的维基百科文本训练的跨语言语言模型，使用掩码语言建模目标进行预训练。

大型语言模型

Transformers

支持多种语言#多语言掩码预测 #跨语言迁移学习 #百种语言支持

下载量 296

发布时间 : 3/2/2022

模型简介

该模型是一个基于Transformer架构的多语言语言模型，支持100种语言，主要用于跨语言理解和生成任务。

模型特点

多语言支持

支持100种语言的跨语言理解和生成任务

大规模预训练

基于100种语言的维基百科文本进行预训练

Transformer架构

采用16层Transformer架构，具有1280个隐藏状态和16个注意力头

模型能力

跨语言文本理解

掩码语言建模

多语言文本生成

使用案例

跨语言分类

XNLI跨语言分类

在XNLI数据集上进行跨语言自然语言推理任务

英语83.7%准确率，中文71.7%准确率等

语言理解

多语言文本理解

理解100种语言的文本内容

🚀 xlm-mlm-100-1280

xlm-mlm-100-1280是一个基于多语言的预训练语言模型，在100种语言的维基百科文本上进行训练，可用于掩码语言建模等任务。

🚀 快速开始

若要了解如何使用该模型，请参考关联 GitHub仓库中的 ipython笔记本获取示例。

✨ 主要特性

多语言支持：支持100种语言，具体语言列表可查看 GitHub仓库。
预训练模型：基于Transformer架构，使用掩码语言建模（MLM）目标进行预训练。

📚 详细文档

🔍 模型详情

xlm-mlm-100-1280是XLM模型，由Guillaume Lample和Alexis Conneau在论文 Cross-lingual Language Model Pretraining 中提出，并在100种语言的维基百科文本上进行训练。该模型是一个使用掩码语言建模（MLM）目标进行预训练的Transformer模型。

属性	详情
开发者	请参考关联论文和 GitHub仓库
模型类型	语言模型
支持语言（NLP）	100种语言，完整列表请见 GitHub仓库
许可证	CC - BY - NC - 4.0
相关模型	xlm-mlm-17-1280
更多信息资源	关联论文、GitHub仓库、Hugging Face多语言推理模型文档

💡 使用方式

直接使用

该模型是一个语言模型，可用于掩码语言建模。

下游使用

若要了解更多关于此任务和潜在的下游应用，请参考Hugging Face的填充掩码文档和 Hugging Face多语言推理模型文档，也可参考关联论文。

超出适用范围的使用

该模型不应被用于故意为人们创造敌对或排斥性的环境。

⚠️ 偏差、风险和局限性

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng等人 (2021) 和 Bender等人 (2021)）。

⚠️ 重要提示

直接用户和下游用户都应该了解该模型的风险、偏差和局限性。

🏋️‍ 训练情况

此模型是在100种语言的维基百科文本上训练的XLM模型。预处理包括使用字节对编码（byte - pair - encoding）进行分词。有关训练数据和训练过程的更多详细信息，请参考 GitHub仓库和关联论文。

Conneau等人 (2020) 报告称，该模型有16层，1280个隐藏状态，16个注意力头，前馈层的维度为1520。词汇量大小为200k，总参数数量为5.7亿（详见表7）。

📊 评估情况

测试数据、因素和指标

模型开发者使用测试准确率指标，在XNLI跨语言分类任务上对模型进行了评估（有关XNLI的更多详细信息，请参阅 XNLI数据卡片）。有关测试数据、因素和指标的更多详细信息，请参考 GitHub仓库。

结果

对于xlm - mlm - 100 - 1280，在XNLI跨语言分类任务中，英语（en）、西班牙语（es）、德语（de）、阿拉伯语（ar）、中文（zh）和乌尔都语（ur）的测试准确率如下：

语言	英语（en）	西班牙语（es）	德语（de）	阿拉伯语（ar）	中文（zh）	乌尔都语（ur）
准确率	83.7	76.6	73.6	67.4	71.7	62.9

更多详细信息请参考 GitHub仓库。

🌱 环境影响

可以使用 Lacoste等人 (2019) 提出的机器学习影响计算器来估算碳排放。

属性	详情
硬件类型	需要更多信息
使用时长	需要更多信息
云服务提供商	需要更多信息
计算区域	需要更多信息
碳排放	需要更多信息

🔧 技术细节

Conneau等人 (2020) 报告称，该模型有16层，1280个隐藏状态，16个注意力头，前馈层的维度为1520。词汇量大小为200k，总参数数量为5.7亿（详见表7）。

📖 引用信息

BibTeX格式：

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA格式：