XLMR - BERTovski开源语言模型 - 助力保加利亚语与马其顿语文本处理应用

首页

XLMR BERTovski

由 MaCoCu 开发

基于保加利亚语和马其顿语文本大规模预训练的语言模型，是MaCoCu项目的一部分

大型语言模型其他#保加利亚语优化 #马其顿语优化 #多语言NLP

下载量 36

发布时间 : 8/11/2022

模型简介

XLMR-BERTovski是一个基于XLM-RoBERTa-large继续训练的保加利亚语和马其顿语语言模型，主要用于自然语言处理任务

模型特点

大规模双语预训练

在74GB的保加利亚语和马其顿语文本上训练，包含超过70亿个标记

优化的数据采样

对数据量较少的马其顿语数据进行双倍采样，平衡两种语言的训练

高质量训练数据

严格筛选.bg和.mk域数据，避免低质量机器翻译内容

模型能力

词性标注（UPOS/XPOS）

命名实体识别（NER）

常识推理（COPA）

保加利亚语文本处理

马其顿语文本处理

使用案例

语言分析

保加利亚语词性标注

对保加利亚语文本进行词性标注

测试集准确率达99.5%（UPOS）

马其顿语命名实体识别

识别马其顿语文本中的命名实体

测试集F1值达96.3%

语言理解

常识推理任务

解决保加利亚语和马其顿语的COPA常识推理问题

准确率分别达54.6%和55.6%

🚀 XLMR-BERTovski模型

XLMR-BERTovski 是一个大型预训练语言模型，在保加利亚语和马其顿语文本上进行训练。它基于 XLM-RoBERTa-large 模型继续训练而来，是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。该模型支持保加利亚语（bg）、马其顿语（mk）以及多语言（multilingual）。

🚀 快速开始

以下是使用 XLMR-BERTovski 模型的示例代码：

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

✨ 主要特性

语言支持：支持保加利亚语和马其顿语，适用于处理这两种语言的相关任务。
预训练基础：基于强大的 XLM-RoBERTa-large 模型继续训练，继承了其优秀的语言理解能力。
大规模数据训练：使用 74GB 的保加利亚语和马其顿语文本进行训练，约 70 多亿个标记，保证了模型的泛化能力。

📦 安装指南

暂未提及具体安装步骤，你可以参考 Hugging Face 相关文档进行模型的安装和使用。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

📚 详细文档

模型描述

XLMR-BERTovski 在 74GB 的保加利亚语和马其顿语文本上进行训练，约 70 多亿个标记。训练进行了 67,500 步，批次大小为 1,024，约 2.5 个周期。它使用与原始 XLMR-large 模型相同的词汇表。该模型与 BERTovski 使用相同的数据进行训练，但本模型使用 RoBERTa 架构从头开始训练。训练和微调过程的详细信息可在 Github 仓库中查看。

数据

训练时使用了 MaCoCu、Oscar、mc4 和维基百科语料库中的所有保加利亚语和马其顿语数据。在手动分析中发现，对于 Oscar 和 mc4 语料库，如果数据不是来自相应的域名（.bg 或 .mk），则通常是（质量较差的）机器翻译数据。因此，仅使用了最初来自 .bg 或 .mk 域名的数据。去重后，共有 54.5GB 的保加利亚语文本和 9GB 的马其顿语文本。由于保加利亚语数据较多，训练时将马其顿语数据简单翻倍。

基准性能

在 XPOS、UPOS 和 NER 基准测试中对 XLMR-BERTovski 的性能进行了测试。对于保加利亚语，使用了通用依存关系项目的数据；对于马其顿语，使用了 babushka-bench 项目中创建的数据集。还在 COPA 数据集的谷歌（保加利亚语）和人工（马其顿语）翻译版本上进行了测试（详细信息见 Github 仓库）。将其性能与 BERTovski 以及强大的多语言模型 XLMR-base 和 XLMR-large 进行了比较。关于微调过程的详细信息，可查看 Github。

保加利亚语

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7
XLMR-BERTovski	99.3	99.5	98.5	98.8	94.4	94.3	54.6

马其顿语

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8
XLMR-BERTovski	98.6	98.8	98.0	97.7	94.4	96.3	55.6

致谢

本研究得到了谷歌 TPU 研究云（TRC）的 Cloud TPU 支持。作者获得了欧盟连接欧洲设施 2014 - 2020 - CEF 电信的资助，资助协议编号为 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用

如果使用此模型，请引用以下论文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}