xlm-mlm-17-1280开源跨语言模型 - 支持17种语言文本处理应用

首页

Xlm Mlm 17 1280

由 FacebookAI 开发

XLM模型是基于17种语言文本训练的跨语言预训练模型，采用掩码语言建模(MLM)目标

大型语言模型

Transformers

支持多种语言#多语言预训练 #跨语言理解 #掩码语言建模

下载量 201

发布时间 : 3/2/2022

模型简介

该模型是通过掩码语言建模目标预训练的Transformer模型，支持17种语言的跨语言理解任务

模型特点

多语言支持

支持17种语言的跨语言理解任务

大规模预训练

基于大规模多语言语料库进行预训练

Transformer架构

采用16层Transformer架构，具有1280个隐藏状态

模型能力

跨语言文本理解

掩码语言建模

多语言文本表示

使用案例

自然语言处理

跨语言文本分类

在XNLI等跨语言分类任务上应用

在英语(84.8)、西班牙语(79.4)、德语(76.2)、阿拉伯语(71.5)和中文(75)上取得良好准确率

多语言文本表示

为下游NLP任务生成多语言文本表示

🚀 xlm-mlm-17-1280

xlm-mlm-17-1280 是一个多语言预训练语言模型，基于 XLM 架构，在 17 种语言的文本数据上进行训练，可用于跨语言的自然语言处理任务。

🚀 快速开始

若要了解如何使用该模型，请参考关联 GitHub 仓库中的 ipython 笔记本示例。

✨ 主要特性

模型详情

模型描述：xlm-mlm-17-1280 是 XLM 模型，由 Guillaume Lample 和 Alexis Conneau 在论文 Cross-lingual Language Model Pretraining 中提出，在 17 种语言的文本上进行训练。该模型是一个基于掩码语言建模（MLM）目标进行预训练的 Transformer 模型。
模型信息 | 属性 | 详情 | |------|------| | 开发者 | 见关联论文和 GitHub 仓库 | | 模型类型 | 语言模型 | | 支持语言 | 17 种语言，完整列表见 GitHub 仓库 | | 许可证 | CC-BY-NC-4.0 | | 相关模型 | xlm-mlm-17-1280 | | 更多信息资源 | 关联论文、GitHub 仓库、Hugging Face 多语言推理模型文档 |

用途

直接用途：该模型可用于掩码语言建模任务。
下游用途：若想了解更多关于此任务及潜在的下游应用，请参考 Hugging Face 的填充掩码文档和 Hugging Face 多语言推理模型文档，也可查看关联论文。
禁止用途：该模型不得用于故意为人们创造敌对或排斥性的环境。

偏差、风险和局限性

大量研究探讨了语言模型的偏差和公平性问题（例如，Sheng 等人 (2021) 和 Bender 等人 (2021)）。

建议：直接用户和下游用户都应了解该模型的风险、偏差和局限性。

训练

此模型是在 17 种语言的文本上训练的 XLM 模型，预处理包括分词和字节对编码。关于训练数据和训练过程的更多详细信息，请参考 GitHub 仓库和关联论文。 Conneau 等人 (2020) 报告称，该模型有 16 层，1280 个隐藏状态，16 个注意力头，前馈层维度为 1520。词汇表大小为 200k，总参数数量为 5.7 亿（见表 7）。

评估

测试数据、因素和指标：模型开发者使用测试准确率指标，在 XNLI 跨语言分类任务上对模型进行了评估（关于 XNLI 的更多详细信息，请参考 XNLI 数据卡片）。关于测试数据、因素和指标的更多详细信息，请参考 GitHub 仓库。
结果：在 XNLI 跨语言分类任务中，xlm-mlm-17-1280 在英语（en）、西班牙语（es）、德语（de）、阿拉伯语（ar）和中文（zh）上的测试准确率如下： | 语言 | 英语（en） | 西班牙语（es） | 德语（de） | 阿拉伯语（ar） | 中文（zh） | |------|------|------|------|------|------| | 准确率 | 84.8 | 79.4 | 76.2 | 71.5 | 75 |

更多详细信息请参考 GitHub 仓库。

环境影响

可使用 Lacoste 等人 (2019) 提出的机器学习影响计算器来估算碳排放。

硬件类型：需要更多信息
使用时长：需要更多信息
云服务提供商：需要更多信息
计算区域：需要更多信息
碳排放：需要更多信息

技术规格

Conneau 等人 (2020) 报告称，该模型有 16 层，1280 个隐藏状态，16 个注意力头，前馈层维度为 1520。词汇表大小为 200k，总参数数量为 5.7 亿（见表 7）。

引用

BibTeX

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}