语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
许可证: mit
XLM-RoBERTa-XL (超大型模型)
XLM-RoBERTa-XL是基于2.5TB经过筛选的CommonCrawl数据预训练的多语言模型,涵盖100种语言。该模型由Naman Goyal、Jingfei Du、Myle Ott、Giri Anantharaman和Alexis Conneau在论文《Larger-Scale Transformers for Multilingual Masked Language Modeling》中提出,并首次发布于此代码库。
免责声明:发布XLM-RoBERTa-XL的团队未为此模型编写模型卡,因此本模型卡由Hugging Face团队撰写。
模型描述
XLM-RoBERTa-XL是RoBERTa的超大型多语言版本。它基于包含100种语言的2.5TB经过筛选的CommonCrawl数据进行预训练。
RoBERTa是一种通过自监督方式在大规模文本语料库上预训练的transformers模型。这意味着它仅对原始文本进行预训练,无需任何人工标注(因此可以利用大量公开可用数据),并通过自动过程从这些文本生成输入和标签。
更准确地说,它采用了掩码语言建模(MLM)目标进行预训练。模型会随机遮蔽输入句子中15%的单词,然后将整个遮蔽后的句子输入模型,并预测被遮蔽的单词。这与传统的循环神经网络(RNN)逐个查看单词的方式不同,也不同于像GPT这样在内部遮蔽未来标记的自回归模型。这使得模型能够学习句子的双向表示。
通过这种方式,模型学习到了100种语言的内部表示,随后可用于提取对下游任务有用的特征:例如,如果您有一个带标签句子的数据集,可以使用XLM-RoBERTa-XL模型生成的特征作为输入来训练标准分类器。
预期用途与限制
您可以将原始模型用于掩码语言建模,但它主要用于在下游任务上进行微调。请参阅模型中心寻找您感兴趣任务的微调版本。
请注意,该模型主要针对需要使用整个句子(可能被遮蔽)进行决策的任务进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应查看像GPT2这样的模型。
使用方法
您可以直接使用该模型进行掩码语言建模的流水线:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='facebook/xlm-roberta-xl')
>>> unmasker("Europe is a <mask> continent.")
[{'score': 0.08562745153903961,
'token': 38043,
'token_str': 'living',
'sequence': 'Europe is a living continent.'},
{'score': 0.0799778401851654,
'token': 103494,
'token_str': 'dead',
'sequence': 'Europe is a dead continent.'},
{'score': 0.046154674142599106,
'token': 72856,
'token_str': 'lost',
'sequence': 'Europe is a lost continent.'},
{'score': 0.04358183592557907,
'token': 19336,
'token_str': 'small',
'sequence': 'Europe is a small continent.'},
{'score': 0.040570393204689026,
'token': 34923,
'token_str': 'beautiful',
'sequence': 'Europe is a beautiful continent.'}]
以下是如何在PyTorch中使用该模型获取给定文本的特征:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('facebook/xlm-roberta-xl')
model = AutoModelForMaskedLM.from_pretrained("facebook/xlm-roberta-xl")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
BibTeX条目及引用信息
@article{DBLP:journals/corr/abs-2105-00572,
author = {Naman Goyal and
Jingfei Du and
Myle Ott and
Giri Anantharaman and
Alexis Conneau},
title = {Larger-Scale Transformers for Multilingual Masked Language Modeling},
journal = {CoRR},
volume = {abs/2105.00572},
year = {2021},
url = {https://arxiv.org/abs/2105.00572},
eprinttype = {arXiv},
eprint = {2105.00572},
timestamp = {Wed, 12 May 2021 15:54:31 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2105-00572.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}