BERTa:基于RoBERTa的加泰罗尼亚语语言模型
目录
点击展开
模型描述
BERTa是基于Transformer架构的加泰罗尼亚语掩码语言模型,采用RoBERTA基础模型架构,通过从公开语料库和网络爬取的中等规模语料训练而成。
该模型最初以bsc/roberta-base-ca-cased名称发布。
预期用途与限制
本模型当前可直接用于掩码语言建模任务(可通过推理API体验或参阅下文)。同时适用于经过微调后应用于问答系统、文本分类或命名实体识别等非生成式下游任务。
使用方法
加载模型与分词器
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
model = AutoModelForMaskedLM.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
掩码填充任务
以下示例展示如何使用pipeline进行掩码语言建模:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-ca-cased')
>>> unmasker("Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.")
[输出结果示例...]
局限性及偏差
训练过程
训练语料与预处理
训练语料整合了来自网络爬取和公开语料库的多源数据,包括:
- DOGC加泰罗尼亚政府公报
- 加泰罗尼亚开放字幕
- OSCAR语料库加泰罗尼亚语部分
- CaWac网络语料库
- 2020年8月下载的加泰罗尼亚维基百科
爬取语料包括:
6. 加泰罗尼亚通用网页爬取数据
7. 加泰罗尼亚政府网站(.gencat)爬取数据
8. 加泰罗尼亚通讯社2015-2020年新闻语料
经过句子分割、语言检测、格式过滤及去重等预处理流程,最终训练语料包含约18亿词元。
分词与预训练
采用与原始RoBERTa相同的52,000词表大小的字节级BPE编码,按照RoBERTa基础模型的超参数设置进行掩码语言建模训练,使用16块NVIDIA V100 GPU耗时48小时完成。
评估结果
CLUB基准测试
模型在加泰罗尼亚语言理解评估基准(CLUB)上进行了微调评估,包含以下任务:
- 词性标注(POS):基于AnCora语料库
- 命名实体识别(NER):处理后的AnCora 2.0.0版本
- 文本分类(TC):来自ACN新闻的TeCla数据集
- 语义文本相似度(STS):加泰罗尼亚语义相似度数据集
- 问答系统(QA):ViquiQuAD和XQuAD数据集
性能对比
与mBERT、XLM-RoBERTa和WikiBERT-ca模型相比,BERTa在各项任务中表现最优:
任务 |
NER (F1) |
POS (F1) |
STS (皮尔逊) |
TC (准确率) |
ViquiQuAD (F1/EM) |
XQuAD (F1/EM) |
BERTa |
88.13 |
98.97 |
79.73 |
74.16 |
86.97/72.29 |
68.89/48.87 |
mBERT |
86.38 |
98.82 |
76.34 |
70.56 |
86.97/72.22 |
67.15/46.51 |
XLM-RoBERTa |
87.66 |
98.89 |
75.40 |
71.68 |
85.50/70.47 |
67.10/46.42 |
WikiBERT-ca |
77.66 |
97.60 |
77.18 |
73.22 |
85.45/70.75 |
65.21/36.60 |
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
plantl-gob-es@bsc.es
版权
西班牙数字化与人工智能国务秘书处(SEDIA)(2022)
许可
Apache 2.0许可证
资助
本研究由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架下资助。
引用文献
[引用文献内容保持不变...]
免责声明
本模型可能存在偏见或其他不良偏差。使用者应自行承担风险并遵守相关法规,模型所有者不承担任何使用后果。
[西班牙语免责声明内容保持不变...]