语言:
许可证:apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "bne"
- "capitel"
- "命名实体识别"
数据集:
评估指标:
推理参数:
聚合策略:"first"
模型索引:
- 名称:roberta-base-bne-capiter-ner-plus
结果:
- 任务类型:token-classification
数据集类型:ner
名称:CAPITEL-NERC
指标:
示例:
- "我叫francisco javier,住在马德里。"
- "我哥哥ramón和他最好的朋友luis在bsc工作。"
基于西班牙语RoBERTa-base模型,在BNE语料库上预训练并针对CAPITEL命名实体识别(NER)数据集微调的模型
目录
点击展开
模型描述
roberta-base-bne-capitel-ner-plus是一个西班牙语命名实体识别(NER)模型,基于roberta-base-bne模型微调而来。该基础模型采用RoBERTa架构,使用迄今为止最大的西班牙语语料库(总计570GB经过清洗和去重的文本)进行预训练,这些文本来自西班牙国家图书馆2009至2019年的网络爬取数据。本模型是roberta-base-bne-capitel-ner的增强版本,对小写命名实体的识别效果更优。
预期用途与限制
roberta-base-bne-capitel-ner-plus模型可用于识别命名实体。该模型的性能受限于其训练数据,可能无法在所有场景中都表现良好。
使用方法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner-plus")
example = "我叫francisco javier,住在马德里。"
ner_results = nlp(example)
pprint(ner_results)
局限性与偏差
在提交时尚未采取措施评估模型中可能存在的偏差。但我们清楚地意识到,由于语料库是通过网络爬虫从多个来源收集的,模型可能存在偏差。我们计划未来在这方面进行研究,如完成相关研究,将更新本模型卡。
训练过程
训练和评估使用的是IberLEF 2020 CAPITEL竞赛(子任务1)的数据集。我们对数据集进行了大小写转换处理,并增加了额外句子用于训练。
训练过程
模型以16的批次大小和5e-5的学习率训练了5个周期。我们根据开发集的下游任务指标选择最佳检查点,然后在测试集上进行评估。
评估
变量与指标
该模型通过最大化F1分数进行微调。
评估结果
我们在CAPITEL-NERC测试集上评估了roberta-base-bne-capitel-ner-plus,并与标准的多语言和单语言基线进行比较:
模型 |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
roberta-base-bne-capitel-ner-plus |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
更多细节请参见官方GitHub仓库中的微调和评估脚本。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权
西班牙数字化与人工智能国务秘书处(SEDIA)版权所有(2022)
许可信息
Apache License, Version 2.0
资助
本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
如果使用本模型,请引用我们的论文:
@article{,
abstract = {我们要感谢西班牙国家图书馆在数据收集方面做出的巨大努力,以及巴塞罗那超级计算中心与IBM合作的未来计算中心(2020)。本工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {人工智能,基准测试,数据处理,MarIA,自然语言处理,西班牙语建模,西班牙语资源},
publisher = {西班牙自然语言处理学会},
title = {MarIA: 西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本仓库发布的模型旨在通用目的,可供第三方使用。这些模型可能存在偏差和/或其他不希望的失真。
当第三方部署或提供基于这些模型的系统和服务给其他方使用,或成为模型用户时,应注意他们有责任减轻使用风险,并确保遵守适用法规,包括关于人工智能使用的法规。
在任何情况下,模型所有者(SEDIA-西班牙数字化与人工智能国务秘书处)和创建者(BSC-巴塞罗那超级计算中心)均不对第三方使用这些模型产生的结果负责。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.