语言:
许可证: Apache-2.0
标签:
-
"加泰罗尼亚语"
-
"命名实体识别"
-
"ner"
-
"CaText"
-
"加泰罗尼亚语文本语料库"
数据集:
- "projecte-aina/ancora-ca-ner"
评估指标:
模型索引:
- 名称: roberta-base-ca-cased-ner
结果:
- 任务:
类型: 词元分类
数据集:
类型: projecte-aina/ancora-ca-ner
名称: ancora-ca-ner
评估指标:
示例:
-
文本: "我叫Lluïsa,住在Santa Maria del Camí。"
-
文本: "Aina、Berta和Norma是非常好的朋友。"
-
文本: "Martí正在阅读Cavall Fort。"
用于命名实体识别的加泰罗尼亚语BERTa(RoBERTa-base)微调模型
目录
点击展开
模型描述
roberta-base-ca-cased-ner是一个针对加泰罗尼亚语的命名实体识别(NER)模型,基于BERTa模型微调而来。BERTa是一个RoBERTa基础模型,通过从公开可用的语料库和爬虫收集的中等规模语料进行预训练(详见BERTa模型卡片)。
预期用途与限制
使用方法
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton是第二次世界大战期间欧洲战场上的美国陆军将领。"
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19},
{'entity_group': 'ORG', 'score': 0.99790734, 'word': ' 美国陆军', 'start': 39, 'end': 69},
{'entity_group': 'LOC', 'score': 0.98424107, 'word': ' 欧洲', 'start': 73, 'end': 79},
{'entity_group': 'MISC', 'score': 0.9963934, 'word': ' 第二', 'start': 91, 'end': 94},
{'entity_group': 'MISC', 'score': 0.97889286, 'word': '次世界大战', 'start': 94, 'end': 113}]
限制与偏差
在提交时,尚未采取措施评估模型中可能存在的偏差。但我们充分意识到,由于语料库是通过网络爬虫技术从多个来源收集的,模型可能存在偏差。我们计划未来在这方面进行研究,如完成相关评估,将更新本模型卡片。
训练
我们使用加泰罗尼亚语NER数据集Ancora-ca-ner进行训练和评估。
评估
我们在Ancora-ca-ner测试集上评估了_roberta-base-ca-cased-ner_模型,并与标准的多语言和单语言基线进行了比较:
模型 |
Ancora-ca-ner (F1值) |
roberta-base-ca-cased-ner |
88.13 |
mBERT |
86.38 |
XLM-RoBERTa |
87.66 |
WikiBERT-ca |
77.66 |
更多细节请参见官方GitHub仓库中的微调和评估脚本。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送邮件至aina@bsc.es
版权声明
版权所有 (c) 2021 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache许可证 2.0版
资助方
本工作由[加泰罗尼亚政府数字政策和领土部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en)在AINA项目框架下资助。
引用信息
如果您在研究中使用了这些资源(数据集或模型),请引用我们最新的论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "多语言模型是中等资源匮乏语言的最佳选择吗?加泰罗尼亚语的全面评估",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "ACL-IJCNLP 2021会议论文集",
month = "8月",
year = "2021",
address = "线上",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
点击展开
本仓库发布的模型旨在通用目的使用,并向第三方提供。这些模型可能存在偏见和/或其他不良偏差。
当第三方部署或提供基于这些模型(或使用这些模型的系统)的服务时,应当注意其有责任降低使用风险,并确保遵守适用法规,包括关于人工智能使用的相关规定。
在任何情况下,模型所有者及创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果承担责任。