Robbert-2023-dutch-large开源荷兰语语言模型 - 助力荷兰语相关内容处理

首页

Robbert 2023 Dutch Large

由 DTAI-KULeuven 开发

RobBERT-2023是基于RoBERTa架构的荷兰语语言模型，由鲁汶大学、根特大学和柏林工业大学开发，是荷兰语最先进的语言模型之一。

大型语言模型

Transformers

其他开源协议:MIT #荷兰语预训练 #大语言模型 #多领域适应

下载量 627

发布时间 : 12/5/2023

模型简介

RobBERT-2023是荷兰RobBERT模型的2023年版本，基于OSCAR 2023数据集训练，提供基础版和大型版两个版本，在荷兰语自然语言处理任务中表现优异。

模型特点

模型能力

文本理解

文本生成

文本分类

命名实体识别

问答系统

使用案例

学术研究

荷兰语NLP研究

用于荷兰语自然语言处理相关研究

在DUMB基准测试中表现优异

商业应用

荷兰语客服系统

构建荷兰语智能客服和问答系统

🚀 RobBERT-2023：让荷兰语语言模型与时俱进

RobBERT-2023 是基于荷兰语的语言模型，由鲁汶大学、根特大学和柏林工业大学联合开发。它在原有模型基础上进行了更新和优化，能更好地适应荷兰语的发展变化，在相关基准测试中表现出色。

RobBERT-2023: A Dutch RoBERTa-based Language Model

🚀 快速开始

RobBERT 是由鲁汶大学、根特大学和柏林工业大学开发的最先进的基于荷兰语 BERT 的语言模型。

RobBERT-2023 是荷兰语 RobBERT 模型的 2023 年版本。它是原始 pdelobelle/robbert-v2-dutch-base 模型在 2023 版 OSCAR 数据集上的新版本。我们发布了一个基础模型，并且这次还发布了一个额外的大模型，拥有 3.55 亿个参数（是 robbert-2022-base 的 3 倍）。我们对这两个模型的性能尤其感到自豪，在格罗宁根自然语言处理实验室（GroNLP）的 DUMB 基准测试中，它们分别比 robbert-v2-base 和 robbert-2022-base 模型高出 2.9 分和 0.9 分。此外，robbert-2023-dutch-large 还比 BERTje 高出 18.6 分。

原始的 RobBERT 模型于 2020 年 1 月发布。从那时起，荷兰语发生了很大的变化，例如 COVID-19 大流行引入了大量新词汇，这些词汇突然开始被日常使用。此外，许多原始模型认为正确的世界事实也发生了变化。为了适应这种和其他使用上的变化，我们发布了一个基于 2022 年数据训练的新荷兰语 BERT 模型：RobBERT 2023。

关于 RobBERT-2023 的更深入信息可以在我们的博客文章、原始 RobBERT 论文和 RobBERT Github 仓库中找到。

✨ 主要特性

性能提升：在 DUMB 基准测试中，超越了之前的 robbert-v2-base 和 robbert-2022-base 模型，robbert-2023-dutch-large 更是比 BERTje 高出 18.6 分。
版本更新：基于 2023 版 OSCAR 数据集训练，适应荷兰语的最新发展变化。
模型多样：发布了基础模型和拥有 3.55 亿参数的大模型，满足不同需求。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")

你可以使用 HuggingFace 基于 BERT 的大部分笔记本在你的荷兰语数据集上微调 RobBERT-2022。

📚 详细文档

可用荷兰语 BERT 模型比较

有多种基于荷兰语 BERT 的模型可用于你的任务微调。以下是一个快速总结，帮助你找到适合需求的模型：

(本模型) DTAI-KULeuven/robbert-2023-dutch-large：RobBERT-2023 是第一个荷兰语大模型（3.55 亿参数）。它使用新的分词器在 OSCAR2023 上训练，采用了我们的 Tik-to-Tok 方法。
DTAI-KULeuven/robbert-2023-dutch-base：RobBERT-2023 是在 OSCAR2023 数据集上的新 RobBERT 模型，使用了全新的分词器。它对依赖单词和/或近期事件信息的任务很有帮助。
DTAI-KULeuven/robbert-2022-dutch-base：RobBERT-2022 是在 OSCAR2022 数据集上进一步预训练的 RobBERT 模型。它对依赖单词和/或近期事件信息的任务很有帮助。
pdelobelle/robbert-v2-dutch-base：多年来，RobBERT 模型在大多数语言任务中一直是表现最好的类似 BERT 的模型。它在一个大型荷兰语网络爬取数据集（OSCAR）上训练，并使用了更优的 RoBERTa 架构，该架构对原始 BERT 模型进行了稳健优化。
DTAI-KULeuven/robbertje-1-gb-merged：RobBERTje 模型是 RobBERT 的蒸馏版本，大小约为其一半，推理速度快四倍。这有助于为你的语言任务部署更具扩展性的语言模型。

还有 GroNLP/bert-base-dutch-cased “BERTje” 模型。该模型使用过时的基本 BERT 模型，并且在较小的干净荷兰语文本语料库上训练。由于 RobBERT 采用了更新的架构以及更大、更接近真实世界的训练语料库，大多数研究人员和从业者似乎在他们的语言任务中使用 RobBERT 模型能取得更高的性能。

如何复现我们论文中的实验

复现我们论文中的实验在 RobBERT 仓库的 README 中有详细描述。预训练取决于模型，对于 RobBERT-2023，这基于我们的 Tik-to-Tok 方法。

RobBERT 名称由来

大多数类似 BERT 的模型名称中都有 BERT 这个词（例如 RoBERTa、ALBERT、CamemBERT 以及许多其他模型）。因此，我们使用其掩码语言模型对原始的 RobBERT 模型进行查询，让它以 \<mask\>bert 的形式给自己命名，使用了各种提示方式，它始终称自己为 RobBERT。

我们认为这个名字非常合适，因为 RobBERT 是一个非常荷兰化的名字（因此显然是一个荷兰语语言模型），并且与它的基础架构 RoBERTa 有很高的相似性。

由于 “rob” 在荷兰语中是表示海豹的词，我们决定画一只海豹，并把它打扮成芝麻街的伯特的样子，作为 RobBERT 标志。

📄 许可证

本项目采用 MIT 许可证。

🔧 技术细节

RobBERT-2023 和 RobBERT 都使用 RoBERTa 架构和预训练方法，但使用荷兰语分词器和训练数据。RoBERTa 是经过稳健优化的英语 BERT 模型，比原始 BERT 模型更强大。由于采用了相同的架构，RobBERT 可以使用微调 RoBERTa 模型的代码和大多数用于 BERT 模型的代码轻松进行微调并推理，例如 HuggingFace Transformers 库提供的代码。

默认情况下，RobBERT-2023 具有训练中使用的掩码语言模型头。这可以作为一种零样本方法来填充句子中的掩码。你可以在 RobBERT 在 Huggingface 的托管推理 API 上免费测试。你还可以使用 HuggingFace 的任何 RoBERTa 运行器、他们的微调笔记本，通过将模型名称更改为 pdelobelle/robbert-2023-dutch-large 为你自己的任务创建一个新的预测头。

🔗 引用信息

RobBERT 模型套件由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 创建。如果你想引用我们的论文或模型，可以使用以下 BibTeX：

@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}

@inproceedings{delobelle2022robbert2022,
  doi = {10.48550/ARXIV.2211.08192},
  url = {https://arxiv.org/abs/2211.08192},
  author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
  keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
  venue = {arXiv},
  year = {2022},
}

@inproceedings{delobelle2020robbert,
    title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
    author = "Delobelle, Pieter  and
      Winters, Thomas  and
      Berendt, Bettina",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
    doi = "10.18653/v1/2020.findings-emnlp.292",
    pages = "3255--3265"
}