语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
xlm-roberta-large-finetuned-conll02-dutch
目录
- 模型详情
- 用途
- 偏见、风险与限制
- 训练
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
模型描述
XLM-RoBERTa模型由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov在论文《大规模无监督跨语言表征学习》中提出。该模型基于Facebook于2019年发布的RoBERTa模型,是一个大型多语言语言模型,训练数据为2.5TB经过筛选的CommonCrawl数据。本模型是在荷兰语CoNLL-2002数据集上微调的XLM-RoBERTa-large。
用途
直接使用
该模型是一个语言模型,可用于词元分类任务,即对文本中的部分词元分配标签的自然语言理解任务。
下游应用
潜在的下游应用包括命名实体识别(NER)和词性标注(PoS)。要了解更多关于词元分类及其他潜在下游应用的信息,请参阅Hugging Face的词元分类文档。
超出范围的使用
该模型不应被用于故意制造敌对或疏远的环境。
偏见、风险与限制
内容警告:读者应注意,该模型生成的语言可能对某些人造成困扰或冒犯,并可能传播历史和当前的刻板印象。
已有大量研究探讨了语言模型中的偏见和公平性问题(例如参见Sheng等人(2021)和Bender等人(2021))。
建议
用户(包括直接使用和下游应用)应了解该模型的风险、偏见和限制。
训练
有关训练数据和训练过程的详细信息,请参阅以下资源:
评估
评估细节请参见相关论文。
环境影响
碳排放量可使用Lacoste等人(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 500块32GB Nvidia V100 GPU(来自相关论文)
- 使用时长: 需更多信息
- 云服务提供商: 需更多信息
- 计算区域: 需更多信息
- 碳排放量: 需更多信息
技术规格
更多技术细节请参见相关论文。
引用
BibTeX:
@article{conneau2019unsupervised,
title={Unsupervised Cross-lingual Representation Learning at Scale},
author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1911.02116},
year={2019}
}
APA:
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
使用以下代码开始使用该模型。您可以直接在NER任务中使用该模型。
点击展开
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Mijn naam is Emma en ik woon in Londen.")
[{'end': 17,
'entity': 'B-PER',
'index': 4,
'score': 0.9999807,
'start': 13,
'word': '▁Emma'},
{'end': 36,
'entity': 'B-LOC',
'index': 9,
'score': 0.9999871,
'start': 32,
'word': '▁Lond'}]