语言:
- 多语言
- 英语
- 西班牙语
- 法语
- 德语
- 中文
- 俄语
- 葡萄牙语
- 意大利语
- 阿拉伯语
- 日语
- 印尼语
- 土耳其语
- 荷兰语
- 波兰语
- 波斯语
- 越南语
- 瑞典语
- 韩语
- 希伯来语
- 罗马尼亚语
- 挪威语
- 印地语
- 乌克兰语
- 捷克语
- 芬兰语
- 匈牙利语
- 泰语
- 丹麦语
- 加泰罗尼亚语
- 希腊语
- 保加利亚语
- 塞尔维亚语
- 马来语
- 孟加拉语
- 克罗地亚语
- 斯洛文尼亚语
- 阿塞拜疆语
- 斯洛伐克语
- 世界语
- 泰米尔语
- 塞尔维亚-克罗地亚语
- 立陶宛语
- 爱沙尼亚语
- 马拉雅拉姆语
- 拉丁语
- 波斯尼亚语
- 阿尔巴尼亚语
- 埃及阿拉伯语
- 南非荷兰语
- 格鲁吉亚语
- 马拉地语
- 巴斯克语
- 他加禄语
- 古英语
- 加利西亚语
- 新挪威语
- 乌尔都语
- 哈萨克语
- 白俄罗斯语
- 亚美尼亚语
- 泰卢固语
- 拉脱维亚语
- 马其顿语
- 阿尔萨斯语
- 冰岛语
- 吴语
- 缅甸语
- 苏格兰语
- 蒙古语
- 宿务语
- 阿斯图里亚斯语
- 威尔士语
- 卡纳达语
- 布列塔尼语
- 阿拉贡语
- 古吉拉特语
- 巴伐利亚语
- 乌兹别克语
- 卢森堡语
- 尼泊尔语
- 僧伽罗语
- 瓦瑞语
- 爪哇语
- 爱尔兰语
- 奥克语
- 库尔德语
- 斯瓦希里语
- 低地德语
- 中库尔德语
- 国际语
- 意第绪语
- 西弗里西亚语
- 西西里语
- 赣语
- 鞑靼语
- 阿姆哈拉语
许可证: CC-BY-NC-4.0
xlm-mlm-100-1280
目录
- 模型详情
- 用途
- 偏见、风险与限制
- 训练
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
xlm-mlm-100-1280是XLM模型,由Guillaume Lample和Alexis Conneau在跨语言语言模型预训练中提出,基于100种语言的维基百科文本训练而成。该模型使用掩码语言建模(MLM)目标进行预训练的Transformer模型。
模型描述
用途
直接使用
该模型是一个语言模型,可用于掩码语言建模任务。
下游使用
关于该任务及潜在下游应用的更多信息,请参阅Hugging Face的填充掩码文档和多语言推理模型文档。另请参阅相关论文。
超出范围的使用
该模型不应被用于故意制造敌对或排斥性的环境。
偏见、风险与限制
已有大量研究探讨了语言模型中的偏见和公平性问题(例如参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(包括直接使用和下游使用)应了解该模型的风险、偏见和限制。
训练
该模型是基于100种语言维基百科文本训练的XLM模型。预处理包括使用字节对编码进行分词。更多关于训练数据和训练过程的细节,请参见GitHub仓库和相关论文。
Conneau等人(2020)报告称,该模型有16层,1280个隐藏状态,16个注意力头,前馈层维度为1520。词汇量为20万,总参数量为5.7亿(见表7)。
评估
测试数据、因素与指标
模型开发者在XNLI跨语言分类任务上评估了该模型(关于XNLI的更多细节请参见XNLI数据卡),使用测试准确率作为指标。关于测试数据、因素和指标的更多细节,请参见GitHub仓库。
结果
对于xlm-mlm-100-1280,在XNLI跨语言分类任务上的测试准确率(英语(en)、西班牙语(es)、德语(de)、阿拉伯语(ar)、中文(zh)和乌尔都语(ur))如下:
语言 |
en |
es |
de |
ar |
zh |
ur |
|
83.7 |
76.6 |
73.6 |
67.4 |
71.7 |
62.9 |
更多细节请参见GitHub仓库。
环境影响
碳排放量可以使用Lacoste等人(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 需要更多信息
- 使用时长: 需要更多信息
- 云服务提供商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格
Conneau等人(2020)报告称,该模型有16层,1280个隐藏状态,16个注意力头,前馈层维度为1520。词汇量为20万,总参数量为5.7亿(见表7)。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
需要更多信息。示例请参见相关GitHub仓库中的ipython notebook。