roberta-base-ca-v2-cased-ner开源模型 - 免费实现加泰罗尼亚语命名实体识别

首页

Roberta Base Ca V2 Cased Ner

由 projecte-aina 开发

基于RoBERTa架构的加泰罗尼亚语命名实体识别模型，在AnCora-Ca-NER数据集上微调

序列标注

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语NER #高精度实体识别 #RoBERTa架构

下载量 986

发布时间 : 6/30/2022

模型简介

用于识别加泰罗尼亚语文本中的命名实体，如人名、地名、组织名等

模型特点

高精度识别

在加泰罗尼亚语NER任务上达到89.29 F1值

专业领域优化

针对加泰罗尼亚语特性进行专门优化

预训练模型微调

基于roberta-base-ca-v2预训练模型进行微调

模型能力

识别加泰罗尼亚语文本中的命名实体

区分不同类型的命名实体（人物、地点、组织等）

使用案例

文本分析

新闻文本分析

从新闻文章中提取关键人物、地点和组织信息

可准确识别加泰罗尼亚语新闻中的命名实体

社交媒体监控

分析社交媒体中的提及实体

帮助追踪品牌或人物的社交媒体提及情况

🚀 加泰罗尼亚语命名实体识别微调模型（roberta-base-ca-v2）

本项目基于 roberta-base-ca-v2 模型微调，实现加泰罗尼亚语的命名实体识别（NER）功能，为加泰罗尼亚语的文本处理提供了高效准确的解决方案。

🚀 快速开始

以下是使用此模型的示例代码：

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."

ner_results = nlp(example)
pprint(ner_results)

[{'entity_group': 'person-other', 'score': 0.90749526, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'organization-other', 'score': 0.9260813, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'location-other', 'score': 0.992481, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'event-attack/terrorism/militaryconflict', 'score': 0.99319077, 'word': ' Segunda Guerra Mundial', 'start': 91, 'end': 113}]

✨ 主要特性

针对性微调：基于 roberta-base-ca-v2 模型进行微调，专门用于加泰罗尼亚语的命名实体识别任务。
高效准确：在 AnCora-Ca-NER 测试集上取得了 89.29 的 F1 分数，表现出色。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."

ner_results = nlp(example)
pprint(ner_results)

📚 详细文档

模型描述

roberta-base-ca-v2-cased-ner 是一个用于加泰罗尼亚语的命名实体识别（NER）模型，它基于 roberta-base-ca-v2 模型进行微调。roberta-base-ca-v2 是一个 RoBERTa 基础模型，在一个从中等规模语料库收集的公开可用语料和网络爬虫数据上进行了预训练（更多详细信息请查看 roberta-base-ca-v2 模型卡片）。

预期用途和限制

roberta-base-ca-v2-cased-ner 模型可用于识别给定文本中的命名实体。但该模型受其训练数据集的限制，可能无法在所有用例中都有良好的泛化表现。

局限性和偏差

在提交时，尚未采取措施来评估模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬虫技术收集的，我们的模型可能存在偏差。我们计划在未来对这些领域进行研究，如果完成研究，此模型卡片将进行更新。

训练

训练数据

我们使用了加泰罗尼亚语的 NER 数据集 AnCora-Ca-NER 进行训练和评估。

训练过程

模型以 16 的批量大小和 5e-5 的学习率训练了 5 个周期。然后，我们使用相应开发集中的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估

变量和指标

此模型在微调时最大化了 F1 分数。

评估结果

我们在 AnCora-Ca-NER 测试集上对 roberta-base-ca-v2-cased-ner 与标准的多语言和单语言基线模型进行了评估：

模型	AnCora-Ca-NER (F1)
roberta-base-ca-v2-cased-ner	89.29
roberta-base-ca-cased-ner	89.76
mBERT	86.87
XLM-RoBERTa	86.31

更多详细信息，请查看官方 GitHub 仓库中的微调与评估脚本。

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至 aina@bsc.es

版权

许可信息

Apache 许可证，版本 2.0

资金支持

这项工作由加泰罗尼亚政府副主席兼数字政策与领土部在 Projecte AINA 框架内资助。

引用信息

如果您在工作中使用了这些资源（数据集或模型），请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

免责声明

本仓库中发布的模型旨在用于通用目的，并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。当第三方使用这些模型（或基于这些模型的系统）部署或向其他方提供系统和/或服务，或成为模型的用户时，他们应注意，减轻使用这些模型所产生的风险是他们的责任，并且在任何情况下，都应遵守适用的法规，包括有关人工智能使用的法规。在任何情况下，模型的所有者和创建者（巴塞罗那超级计算中心）均不对第三方使用这些模型所产生的任何结果负责。