语言:
许可证: Apache-2.0
标签:
- "西班牙国家图书馆"
- "西班牙语"
- "西班牙国家图书馆(BNE)"
- "CAPITEL"
- "命名实体识别(NER)"
数据集:
评估指标:
推理参数:
聚合策略: "first"
模型索引:
- 名称: roberta-large-bne-capiter-ner
结果:
- 任务类型: 标记分类
数据集类型: NER
数据集名称: CAPITEL-NERC
评估指标:
示例输入:
- "我叫Francisco Javier,住在马德里。"
- "我兄弟Ramón和他最好的朋友Luis在BSC工作。"
基于BNE预训练的西班牙语RoBERTa-large模型,针对CAPITEL命名实体识别(NER)数据集微调
目录
点击展开
模型描述
roberta-large-bne-capitel-ner是一个西班牙语命名实体识别(NER)模型,基于roberta-large-bne模型微调而来。该基础模型是采用RoBERTa架构的大规模模型,使用迄今为止最大的西班牙语语料库(总计570GB经过清洗和去重的文本)进行预训练,这些文本来自西班牙国家图书馆(BNE)2009至2019年间的网络爬取数据。
预期用途与限制
本模型可用于识别命名实体(NE)。其性能受训练数据集限制,可能无法适用于所有场景。
使用方法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-large-bne-capitel-ner")
example = "我叫Francisco Javier,住在马德里。"
ner_results = nlp(example)
pprint(ner_results)
局限性及偏差
当前版本尚未进行偏差评估。需要注意的是,由于训练数据来自多源网络爬取,模型可能存在潜在偏差。我们计划未来开展相关研究,届时将更新本说明文档。
训练过程
使用IberLEF 2020 CAPITEL竞赛(子任务1)数据集进行训练。
训练参数
- 批次大小:32
- 学习率:3e-5
- 训练轮次:5
通过开发集指标选择最佳检查点,最终在测试集上评估。
评估
评估指标
以F1值为核心优化目标。
评估结果
在CAPITEL-NERC测试集上的对比表现:
模型 |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
完整训练和评估脚本详见官方GitHub仓库。
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
plantl-gob-es@bsc.es
版权声明
西班牙数字化与人工智能国务秘书处(SEDIA)(2022)
许可信息
Apache License 2.0
资助方
本项目由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用信息
若使用本模型,请引用我们的论文:
@article{,
abstract = {特别感谢西班牙国家图书馆的数据收集工作,以及巴塞罗那超级计算中心与IBM合作的未来计算中心(2020)。本项目由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。},
author = {Asier Gutiérrez Fandiño等},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
title = {MarIA:西班牙语语言模型},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本模型仅供通用目的使用,可能存在偏差或其他缺陷。第三方使用本模型时需自行承担风险,并确保符合人工智能相关法规要求。模型所有者(SEDIA)及创建者(BSC)不承担因使用模型产生的任何责任。
(西班牙语原文部分翻译同上,此处从略)