标签:
- exbert
语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
许可证: mit
XLM-RoBERTa(基础规模模型)
XLM-RoBERTa模型基于包含100种语言的2.5TB过滤CommonCrawl数据预训练而成。该模型由Conneau等人在论文《大规模无监督跨语言表示学习》中提出,并首次发布于此代码库。
免责声明:发布XLM-RoBERTa的团队未为此模型编写模型卡,因此本模型卡由Hugging Face团队撰写。
模型描述
XLM-RoBERTa是RoBERTa的多语言版本,基于包含100种语言的2.5TB过滤CommonCrawl数据预训练。
RoBERTa是一种通过自监督方式在大规模文本语料库上预训练的transformers模型。这意味着它仅对原始文本进行预训练,无需人工标注(因此可以利用大量公开可用数据),并通过自动过程从这些文本生成输入和标签。
具体而言,它通过掩码语言建模(MLM)目标进行预训练。模型随机掩码输入句子中15%的单词,然后处理整个掩码句子并预测被掩码的单词。这与传统的循环神经网络(RNN)逐个查看单词或像GPT这样内部掩码未来标记的自回归模型不同。它允许模型学习句子的双向表示。
通过这种方式,模型学习了100种语言的内部表示,可用于提取对下游任务有用的特征:例如,如果您有一个标注句子的数据集,可以使用XLM-RoBERTa模型生成的特征作为输入训练标准分类器。
预期用途与限制
您可以将原始模型用于掩码语言建模,但它主要用于在下游任务上进行微调。请参阅模型中心寻找您感兴趣任务的微调版本。
请注意,此模型主要针对使用整个句子(可能被掩码)进行决策的任务(如序列分类、标记分类或问答)进行微调。对于文本生成等任务,您应查看像GPT2这样的模型。
使用方法
您可以直接使用此模型进行掩码语言建模的流水线:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-base')
>>> unmasker("Hello I'm a <mask> model.")
[{'score': 0.10563907772302628,
'sequence': "Hello I'm a fashion model.",
'token': 54543,
'token_str': 'fashion'},
{'score': 0.08015287667512894,
'sequence': "Hello I'm a new model.",
'token': 3525,
'token_str': 'new'},
{'score': 0.033413201570510864,
'sequence': "Hello I'm a model model.",
'token': 3299,
'token_str': 'model'},
{'score': 0.030217764899134636,
'sequence': "Hello I'm a French model.",
'token': 92265,
'token_str': 'French'},
{'score': 0.026436051353812218,
'sequence': "Hello I'm a sexy model.",
'token': 17473,
'token_str': 'sexy'}]
以下是如何在PyTorch中使用此模型获取给定文本的特征:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-base")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
BibTeX条目和引用信息
@article{DBLP:journals/corr/abs-1911-02116,
author = {Alexis Conneau and
Kartikay Khandelwal and
Naman Goyal and
Vishrav Chaudhary and
Guillaume Wenzek and
Francisco Guzm{\'{a}}n and
Edouard Grave and
Myle Ott and
Luke Zettlemoyer and
Veselin Stoyanov},
title = {Unsupervised Cross-lingual Representation Learning at Scale},
journal = {CoRR},
volume = {abs/1911.02116},
year = {2019},
url = {http://arxiv.org/abs/1911.02116},
eprinttype = {arXiv},
eprint = {1911.02116},
timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}