语言:
许可证: Apache-2.0
标签:
- "加泰罗尼亚语"
- "命名实体识别"
- "ner"
- "CaText"
- "加泰罗尼亚语文本语料库"
数据集:
- "projecte-aina/ancora-ca-ner"
评估指标:
模型索引:
- 名称: roberta-base-ca-v2-cased-ner
结果:
- 任务:
类型: 标记分类
数据集:
类型: projecte-aina/ancora-ca-ner
名称: Ancora-ca-NER
评估指标:
小部件示例:
-
文本: "我叫Lluïsa,住在Santa Maria del Camí。"
-
文本: "Aina、Berta和Norma是非常好的朋友。"
-
文本: "Martí正在阅读Cavall Fort。"
加泰罗尼亚语BERTa-v2 (roberta-base-ca-v2) 微调用于命名实体识别
目录
点击展开
模型描述
roberta-base-ca-v2-cased-ner 是一个针对加泰罗尼亚语的命名实体识别(NER)模型,基于roberta-base-ca-v2模型微调而来。该基础模型是采用RoBERTa架构,在从公开语料库和网络爬取的中等规模加泰罗尼亚语语料上预训练完成(详见roberta-base-ca-v2模型卡片)。
预期用途与限制
本模型可用于识别文本中的命名实体。其性能受限于训练数据集,可能无法覆盖所有使用场景。
使用方法
使用示例:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "我叫Lluïsa,住在Santa Maria del Camí。"
ner_results = nlp(example)
pprint(ner_results)
[{'entity_group': '人物-其他', 'score': 0.90749526, 'word': ' George Smith Patton', 'start': 0, 'end': 19},
{'entity_group': '组织-其他', 'score': 0.9260813, 'word': ' 美国陆军', 'start': 39, 'end': 69},
{'entity_group': '地点-其他', 'score': 0.992481, 'word': ' 欧洲', 'start': 73, 'end': 79},
{'entity_group': '事件-军事冲突/恐怖袭击', 'score': 0.99319077, 'word': ' 第二次世界大战', 'start': 91, 'end': 113}]
局限性与偏差
当前版本尚未进行偏差评估。需要注意的是,由于训练数据来自网络爬取,模型可能包含潜在偏见。我们计划未来开展相关研究,届时将更新本模型卡片。
训练过程
训练数据
使用加泰罗尼亚语NER数据集AnCora-Ca-NER进行训练和评估。
训练流程
批量大小16,学习率5e-5,训练5个周期。根据开发集指标选择最佳检查点,最终在测试集评估。
评估
变量与指标
以F1值作为核心优化指标。
评估结果
在AnCora-Ca-NER测试集上的对比表现:
模型 |
AnCora-Ca-NER (F1) |
roberta-base-ca-v2-cased-ner |
89.29 |
roberta-base-ca-cased-ner |
89.76 |
mBERT |
86.87 |
XLM-RoBERTa |
86.31 |
详细实现参见官方GitHub仓库。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
咨询请联系:aina@bsc.es
版权声明
© 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache License 2.0
资助方
由加泰罗尼亚政府数字政策与国土部通过AINA项目资助。
引用信息
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
点击展开
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏见或其他不良偏差。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任控制使用风险,并遵守包括人工智能应用在内的相关法规。
模型所有者(巴塞罗那超级计算中心)不对第三方使用这些模型产生的任何结果承担责任。