语言:
许可证:apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "西班牙国家图书馆(BNE)"
- "CAPITEL"
- "命名实体识别(NER)"
数据集:
评估指标:
推理参数:
聚合策略:"first"
模型索引:
- 名称:roberta-base-bne-capiter-ner
结果:
- 任务:
类型:token-classification
数据集:
类型:ner
名称:CAPITEL-NERC
评估指标:
示例:
- "我叫Francisco Javier,住在马德里。"
- "我的兄弟Ramón和他最好的朋友Luis在BSC工作。"
基于西班牙语RoBERTa-base模型,在BNE语料库上预训练并针对CAPITEL命名实体识别(NER)数据集微调
目录
点击展开
模型描述
roberta-base-bne-capitel-ner是一个西班牙语命名实体识别(NER)模型,基于roberta-base-bne模型微调而来。该基础模型采用RoBERTa架构,使用迄今为止最大的西班牙语语料库(总计570GB经过清洗和去重的文本)进行预训练,这些文本由西班牙国家图书馆(Biblioteca Nacional de España)在2009年至2019年期间通过网络爬取整理而成。
预期用途与限制
roberta-base-bne-capitel-ner模型可用于识别命名实体(NE)。该模型的性能受限于其训练数据集,可能无法在所有应用场景中泛化良好。
使用方法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "我叫Francisco Javier,住在马德里。"
ner_results = nlp(example)
pprint(ner_results)
限制与偏差
在提交时,尚未采取措施评估模型中潜在的偏差。然而,我们清楚地意识到,由于语料库是通过网络爬取技术从多个来源收集的,模型可能存在偏差。我们计划未来在这些领域进行研究,如完成相关研究,将更新此模型卡。
训练
训练和评估使用的数据集来自IberLEF 2020的CAPITEL竞赛(子任务1)。
训练过程
模型以16的批次大小和5e-5的学习率训练了5个周期。然后,我们在对应的开发集上使用下游任务指标选择最佳检查点,并在测试集上进行评估。
评估
变量与指标
该模型通过最大化F1值进行微调。
评估结果
我们在CAPITEL-NERC测试集上评估了roberta-base-bne-capitel-ner,并与标准的多语言和单语言基线进行了对比:
模型 |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
更多细节,请参阅官方GitHub仓库中的微调和评估脚本。
附加信息
作者
巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至plantl-gob-es@bsc.es
版权
版权归西班牙数字化与人工智能国务秘书处(SEDIA)所有(2022年)
许可信息
Apache许可证,版本2.0
资助
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
如果您使用此模型,请引用我们的论文:
@article{,
abstract = {我们要感谢西班牙国家图书馆在数据收集方面的巨大努力,以及巴塞罗那超级计算中心和IBM合作的未来计算中心(2020年)。本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {人工智能,基准测试,数据处理,MarIA,自然语言处理,西班牙语语言建模,西班牙语语言资源},
publisher = {西班牙自然语言处理学会},
title = {MarIA:西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本仓库发布的模型旨在通用目的,可供第三方使用。这些模型可能存在偏差和/或其他不希望的失真。
当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统及服务,或成为这些模型的用户时,应注意他们有责任减轻使用过程中产生的风险,并且在任何情况下都应遵守适用的法规,包括关于人工智能使用的法规。
在任何情况下,模型的所有者(SEDIA——西班牙数字化与人工智能国务秘书处)和创建者(BSC——巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的结果负责。
本仓库发布的模型旨在通用目的,可供第三方使用。这些模型可能存在偏差和/或其他不希望的失真。
当第三方部署或向其他方提供使用这些模型(或基于这些模型的系统)的系统及服务,或成为这些模型的用户时,应注意他们有责任减轻使用过程中产生的风险,并且在任何情况下都应遵守适用的法规,包括关于人工智能使用的法规。
在任何情况下,模型的所有者(SEDIA——西班牙数字化与人工智能国务秘书处)和创建者(BSC——巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的结果负责。