XLMR - MaCoCu - is开源语言模型，依托冰岛语预训练助力语言理解与应用

首页

XLMR MaCoCu Is

由 MaCoCu 开发

XLMR-MaCoCu-is是基于冰岛语文本大规模预训练的语言模型，通过继续训练XLM-RoBERTa-large模型构建，隶属于MaCoCu项目。

大型语言模型其他#冰岛语NLP #多任务微调 #大规模预训练

下载量 27

发布时间 : 8/11/2022

模型简介

该模型主要用于冰岛语的自然语言处理任务，如词性标注、命名实体识别和常识推理等。

模型特点

大规模冰岛语预训练

使用4.4GB冰岛语文本（6.88亿词元）进行训练，专注于冰岛语的自然语言处理任务。

多任务性能优越

在UPOS、XPOS、NER和COPA等多个基准测试中表现优于同类模型。

基于XLM-RoBERTa-large

继承了XLM-RoBERTa-large的强大架构和词汇表，针对冰岛语进行了优化。

模型能力

词性标注

命名实体识别

常识推理

文本理解

使用案例

语言学分析

词性标注

对冰岛语文本进行词性标注

在UPOS测试集上达到97.0的准确率

命名实体识别

识别冰岛语文本中的命名实体

在NER测试集上达到93.2的F1分数

常识推理

COPA任务

完成冰岛语的常识推理任务

在COPA测试集上达到59.6的准确率

🚀 XLMR-MaCoCu-is冰岛语预训练语言模型

XLMR-MaCoCu-is 是一个基于冰岛语文本训练的大型预训练语言模型。它在 XLM-RoBERTa-large 模型基础上继续训练得到，是 MaCoCu 项目的一部分，仅使用该项目期间爬取的数据。主要开发者是来自格罗宁根大学的 Rik van Noord。

🚀 快速开始

模型使用示例

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is") # Tensorflow

✨ 主要特性

基于已有模型扩展：在 XLM-RoBERTa-large 模型基础上继续训练，继承了其优秀的语言理解能力。
特定语料训练：仅使用 MaCoCu 项目期间爬取的冰岛语数据进行训练，更适配冰岛语场景。

📦 安装指南

文档未提及具体安装步骤，可参考 transformers 库的安装方法。

📚 详细文档

模型描述

XLMR-MaCoCu-is 在 4.4GB 的冰岛语文本（相当于 6.88 亿个标记）上进行训练，训练步数为 75000 步，批量大小为 1024。它使用与原始 XLMR-large 模型相同的词汇表。训练和微调过程的详细信息可在我们的 Github 仓库中查看。

数据说明

训练时使用了单语冰岛语 MaCoCu 语料库中的所有冰岛语数据。去重后，共有 4.4GB 的文本，相当于 6.88 亿个标记。

基准测试性能

我们在 XPOS、UPOS、NER 和 COPA 基准测试中测试了 XLMR-MaCoCu-is 的性能。

数据来源：
- UPOS 和 XPOS 使用 Universal Dependencies 项目的数据。
- NER 使用 MIM-GOLD-NER 数据集。
- COPA 使用谷歌翻译自动翻译的英语数据集。
对比模型：与多语言模型 XLMR-base 和 XLMR-large，以及单语 IceBERT 模型进行对比。
测试结果： | | UPOS | UPOS | XPOS | XPOS | NER | NER | COPA | |--------------------|:--------:|:--------:|:--------:|:--------:|---------|----------| ----------| | | Dev | Test | Dev | Test | Dev | Test | Test | | XLM-R-base | 96.8 | 96.5 | 94.6 | 94.3 | 85.3 | 89.7 | 55.2 | | XLM-R-large | 97.0 | 96.7 | 94.9 | 94.7 | 88.5 | 91.7 | 54.3 | | IceBERT | 96.4 | 96.0 | 94.0 | 93.7 | 83.8 | 89.7 | 54.6 | | XLMR-MaCoCu-is | 97.3 | 97.0 | 95.4 | 95.1 | 90.8 | 93.2 | 59.6 |

致谢

本研究得到了谷歌 TPU 研究云（TRC）的 Cloud TPU 支持。作者获得了欧盟连接欧洲设施 2014 - 2020 - CEF 电信的资助，资助协议编号为 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用信息

如果您使用此模型，请引用以下论文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}