roberta-base-ca开源加泰罗尼亚语语言模型 - 政府机构开发助力语言应用

首页

Roberta Base Ca

由 PlanTL-GOB-ES 开发

基于RoBERTa架构的加泰罗尼亚语预训练语言模型，由西班牙政府机构开发

大型语言模型

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语专用 #RoBERTa架构优化 #多任务微调适配

下载量 15.56k

发布时间 : 3/2/2022

模型简介

采用掩码语言建模预训练的加泰罗尼亚语Transformer模型，适用于各类自然语言处理任务

模型特点

专业语料训练

整合政府公报、新闻、维基百科等高质量加泰罗尼亚语语料

全面性能评估

在CLUB基准测试中超越mBERT/XLM-RoBERTa等多语言模型

高效预训练

使用16块V100 GPU在48小时内完成18亿词元的训练

模型能力

掩码词预测

文本分类

命名实体识别

语义相似度计算

问答系统

使用案例

政府文本处理

政府公报分析

处理加泰罗尼亚政府公报(DOGC)的自动化理解

新闻媒体

新闻分类

对加泰罗尼亚通讯社(ACN)新闻进行主题分类

74.16%准确率（TeCla数据集）

教育研究

语言理解评估

作为CLUB基准测试的基础模型

NER任务F1值88.13，优于对比模型

🚀 BERTa：基于RoBERTa的加泰罗尼亚语模型

BERTa是一个基于Transformer的加泰罗尼亚语掩码语言模型。它基于RoBERTa基础模型，在从公开可用语料库和网络爬虫收集的中等规模语料库上进行了训练。

🚀 快速开始

加载模型和分词器

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
model = AutoModelForMaskedLM.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")

填充掩码任务

以下是一个如何使用管道进行掩码语言建模任务的示例。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-ca-cased')
>>> unmasker("Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
             "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
             "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
             "i pel nord-oest per la serralada de Collserola "
             "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
             "la línia de costa encaixant la ciutat en un perímetre molt definit.")

[
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.4177263379096985,
    "token": 734,
    "token_str": " Barcelona"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.10696165263652802,
    "token": 3849,
    "token_str": " Badalona"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.08135009557008743,
    "token": 19349,
    "token_str": " Collserola"
  },
  {
   "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.07330769300460815,
    "token": 4974,
    "token_str": " Terrassa"
  },
  {
    "sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
                "entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
                "i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
                "i pel nord-oest per la serralada de Collserola "
                "(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
                "la línia de costa encaixant la ciutat en un perímetre molt definit.",
    "score": 0.03317456692457199,
    "token": 14333,
    "token_str": " Gavà"
  }
]

✨ 主要特性

基于RoBERTa架构，专为加泰罗尼亚语设计。
可直接用于掩码语言建模任务，如填充掩码。
适合在问答、文本分类或命名实体识别等非生成下游任务上进行微调。

📦 安装指南

文档未提及安装步骤，可参考Hugging Face Transformers库的安装方法。

📚 详细文档

预期用途和限制

该模型仅适用于掩码语言建模，以执行填充掩码任务（可尝试推理API或阅读下一部分）。不过，它旨在在问答、文本分类或命名实体识别等非生成下游任务上进行微调。

限制和偏差

文档未详细提及模型的限制和偏差。

训练

训练语料库和预处理

训练语料库由从网络爬虫和公共语料库收集的多个语料库组成。公开可用的语料库包括：

DOGC语料库的加泰罗尼亚语部分，这是加泰罗尼亚政府官方公报的一组文档。
加泰罗尼亚语开放字幕，这是一组翻译的电影字幕。
OSCAR语料库加泰罗尼亚语部分的未打乱版本，这是从Common Crawl过滤的单语语料库集合。
CaWac语料库，这是一个基于.cat顶级域名在2013年末构建的加泰罗尼亚语网络语料库（未去重版本）。
2020年8月18日下载的加泰罗尼亚语维基百科文章。

爬取的语料库包括： 6. 加泰罗尼亚语通用爬取语料库，通过爬取500个最受欢迎的.cat和.ad域名获得。 7. 加泰罗尼亚政府爬取语料库，通过爬取属于加泰罗尼亚政府的.gencat域名及其子域名获得。 8. ACN语料库，包含2015年3月至2020年10月来自加泰罗尼亚新闻社的220k条新闻。

为了获得高质量的训练语料库，每个语料库都经过了一系列操作的预处理，包括句子分割、语言检测、过滤格式错误的句子和去重重复内容。在这个过程中，文档边界被保留。最后，将语料库连接起来，并在语料库之间进行进一步的全局去重。最终的训练语料库约包含18亿个标记。

分词和预训练

训练语料库使用了原始RoBERTA模型中使用的字节对编码（BPE）的字节版本进行分词，词汇表大小为52,000个标记。

BERTa的预训练包括一个掩码语言模型训练，采用了与RoBERTa基础模型相同的方法和超参数。

训练使用16个16GB DDRAM的NVIDIA V100 GPU，总共持续了48小时。

评估

CLUB基准测试

BERTa模型在加泰罗尼亚语理解评估基准（CLUB）的下游任务上进行了微调，该基准是与模型一起创建的。它包含以下任务及其相关数据集：

词性标注（POS）：加泰罗尼亚语Ancora数据集，来自著名的Ancora语料库的通用依赖树库。
命名实体识别（NER）：AnCora加泰罗尼亚语2.0.0，从原始Ancora版本中提取命名实体，过滤掉一些非常规的实体（如书籍标题），并将它们转录为标准的CONLL-IOB格式。
文本分类（TC）：TeCla，由来自加泰罗尼亚新闻社（ACN）语料库的137k条新闻组成。
语义文本相似度（STS）：加泰罗尼亚语语义文本相似度，由3000多个句子对组成，标注了它们之间的语义相似度，从加泰罗尼亚语文本语料库中抓取。
问答（QA）：
- ViquiQuAD，由从加泰罗尼亚语维基百科中随机选择的596篇原始用加泰罗尼亚语撰写的文章中提取的15,000多个问题组成。
- XQuAD，XQuAD的加泰罗尼亚语翻译，这是一个多语言的手动翻译集合，包含来自英语维基百科的1,190个问答对，仅用作测试集。

以下是数据集的训练/开发/测试分割：

任务（数据集）	总数	训练集	开发集	测试集
NER（Ancora）	13,581	10,628	1,427	1,526
POS（Ancora）	16,678	13,123	1,709	1,846
STS	3,073	2,073	500	500
TC（TeCla）	137,775	110,203	13,786	13,786
QA（ViquiQuAD）	14,239	11,255	1,492	1,429

下游任务的微调使用了HuggingFace的Transformers库。

结果

以下是BERTa模型在CLUB任务上的评估结果，与多语言mBERT、XLM-RoBERTa模型和加泰罗尼亚语WikiBERT-ca模型进行了比较：

任务	NER（F1）	POS（F1）	STS（皮尔逊相关系数）	TC（准确率）	QA（ViquiQuAD）（F1/EM）	QA（XQuAD）（F1/EM）
BERTa	88.13	98.97	79.73	74.16	86.97/72.29	68.89/48.87
mBERT	86.38	98.82	76.34	70.56	86.97/72.22	67.15/46.51
XLM-RoBERTa	87.66	98.89	75.40	71.68	85.50/70.47	67.10/46.42
WikiBERT-ca	77.66	97.60	77.18	73.22	85.45/70.75	65.21/36.60

🔧 技术细节

模型架构：基于RoBERTA架构，针对加泰罗尼亚语进行优化。
训练数据：由多个公开语料库和爬取的语料库组成，经过预处理和去重。
分词方法：使用字节对编码（BPE），词汇表大小为52,000。
训练硬件：16个NVIDIA V100 GPU。

📄 许可证

本模型采用Apache许可证2.0版。

🔗 附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需进一步信息，请发送电子邮件至plantl-gob-es@bsc.es

版权

版权归西班牙数字化和人工智能国务秘书处（SEDIA）所有（2022年）

引用信息

如果您使用此模型，请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}