许可协议: cc0-1.0
语言:
模型描述
XLMR-MaCoCu-is 是一个基于冰岛语文本大规模预训练的语言模型。该模型通过继续训练XLM-RoBERTa-large模型而构建。其开发隶属于MaCoCu项目,仅使用项目期间爬取的数据。主要开发者是格罗宁根大学的Rik van Noord。
该模型训练数据为4.4GB冰岛语文本(相当于6.88亿词元),采用1024的批量大小训练了75,000步,词汇表与原始XLMR-large模型保持一致。
完整训练与微调流程详见我们的Github仓库。
使用方法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
训练数据
我们使用了MaCoCu单语冰岛语语料库中的所有冰岛语数据。经过去重处理后,最终训练文本总量为4.4GB(6.88亿词元)。
基准测试表现
我们在XPOS、UPOS、NER和COPA基准测试中评估了XLMR-MaCoCu-is的性能:
对比模型包括多语言模型XLMR-base/XLMR-large及单语模型IceBERT。XPOS/UPOS/NER微调细节参见Github。
除COPA采用10次运行平均值外,其他测试均为3次运行均值。所有模型采用相同超参数配置。
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
开发集 |
测试集 |
开发集 |
测试集 |
开发集 |
测试集 |
测试集 |
XLM-R-base |
96.8 |
96.5 |
94.6 |
94.3 |
85.3 |
89.7 |
55.2 |
XLM-R-large |
97.0 |
96.7 |
94.9 |
94.7 |
88.5 |
91.7 |
54.3 |
IceBERT |
96.4 |
96.0 |
94.0 |
93.7 |
83.8 |
89.7 |
54.6 |
XLMR-MaCoCu-is |
97.3 |
97.0 |
95.4 |
95.1 |
90.8 |
93.2 |
59.6 |
致谢
研究使用Google TPU研究云(TRC)提供的Cloud TPU支持。作者受欧盟连接欧洲设施2014-2020计划资助(项目编号INEA/CEF/ICT/A2020/2278341,MaCoCu项目)。
引用
若使用本模型,请引用以下论文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}