语言:
- 保加利亚语
- 马其顿语
- 多语言
许可证: cc0-1.0
标签:
- BERTovski
- MaCoCu
模型描述
XLMR-BERTovski 是一个基于保加利亚语和马其顿语文本大规模预训练的语言模型。该模型通过继续训练 XLM-RoBERTa-large 模型而创建,是 MaCoCu 项目的一部分。主要开发者是格罗宁根大学的 Rik van Noord。
XLMR-BERTovski 在74GB的保加利亚语和马其顿语文本上进行了训练,相当于超过70亿个标记。训练共进行了67,500步,批次大小为1,024,大约相当于2.5个训练周期。模型使用了与原始XLMR-large模型相同的词汇表。训练数据与 BERTovski 相同,但本模型采用RoBERTa架构从头开始训练。
训练和微调过程的详细说明请参见我们的 Github仓库。
使用方法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
数据
训练数据来自 MaCoCu、Oscar、mc4和维基百科语料库中的所有保加利亚语和马其顿语内容。经人工分析发现,Oscar和mc4中非.bg或.mk域的数据多为(质量较差的)机器翻译内容,因此我们仅保留原始.bg和.mk域的数据。
去重后,我们获得了54.5GB的保加利亚语文本和9GB的马其顿语文本。由于保加利亚语数据量明显更多,我们在训练过程中将马其顿语数据进行了双倍采样。
基准测试表现
我们在XPOS、UPOS和NER任务上测试了XLMR-BERTovski的性能。保加利亚语测试使用Universal Dependencies项目数据,马其顿语测试使用babushka-bench项目数据集。同时测试了COPA数据集的保加利亚语(谷歌翻译)和马其顿语(人工翻译)版本(详见Github仓库)。性能对比模型包括BERTovski及强大多语言模型XLMR-base和XLMR-large。微调过程细节请参阅我们的Github。
除COPA采用10次运行平均外,其他任务均为3次运行平均值。UPOS/XPOS/NER任务使用相同超参数设置,COPA任务则根据开发集优化学习率。
保加利亚语
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
开发集 |
测试集 |
开发集 |
测试集 |
开发集 |
测试集 |
测试集 |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
XLMR-BERTovski |
99.3 |
99.5 |
98.5 |
98.8 |
94.4 |
94.3 |
54.6 |
马其顿语
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
开发集 |
测试集 |
开发集 |
测试集 |
开发集 |
测试集 |
测试集 |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
XLMR-BERTovski |
98.6 |
98.8 |
98.0 |
97.7 |
94.4 |
96.3 |
55.6 |
致谢
本研究使用Google TPU研究云(TRC)提供的Cloud TPU支持。作者获得欧盟连接欧洲设施2014-2020 - CEF Telecom资助(资助协议号INEA/CEF/ICT/A2020/2278341,MaCoCu项目)。
引用
若使用本模型,请引用以下论文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}