模型简介
模型特点
模型能力
使用案例
🚀 RobBERT-2023:让荷兰语语言模型与时俱进
RobBERT-2023 是基于荷兰语的语言模型,由鲁汶大学、根特大学和柏林工业大学联合开发。它在原有模型基础上进行了更新和优化,能更好地适应荷兰语的发展变化,在相关基准测试中表现出色。
🚀 快速开始
RobBERT 是由鲁汶大学、根特大学和柏林工业大学开发的最先进的基于荷兰语 BERT 的语言模型。
RobBERT-2023 是 荷兰语 RobBERT 模型 的 2023 年版本。它是原始 pdelobelle/robbert-v2-dutch-base 模型在 2023 版 OSCAR 数据集上的新版本。我们发布了一个基础模型,并且这次还发布了一个额外的大模型,拥有 3.55 亿个参数(是 robbert-2022-base 的 3 倍)。我们对这两个模型的性能尤其感到自豪,在格罗宁根自然语言处理实验室(GroNLP)的 DUMB 基准测试 中,它们分别比 robbert-v2-base 和 robbert-2022-base 模型高出 2.9 分和 0.9 分。此外,robbert-2023-dutch-large
还比 BERTje 高出 18.6 分。
原始的 RobBERT 模型于 2020 年 1 月发布。从那时起,荷兰语发生了很大的变化,例如 COVID-19 大流行引入了大量新词汇,这些词汇突然开始被日常使用。此外,许多原始模型认为正确的世界事实也发生了变化。为了适应这种和其他使用上的变化,我们发布了一个基于 2022 年数据训练的新荷兰语 BERT 模型:RobBERT 2023。
关于 RobBERT-2023 的更深入信息可以在我们的 博客文章、原始 RobBERT 论文 和 RobBERT Github 仓库 中找到。
✨ 主要特性
- 性能提升:在 DUMB 基准测试 中,超越了之前的 robbert-v2-base 和 robbert-2022-base 模型,
robbert-2023-dutch-large
更是比 BERTje 高出 18.6 分。 - 版本更新:基于 2023 版 OSCAR 数据集训练,适应荷兰语的最新发展变化。
- 模型多样:发布了基础模型和拥有 3.55 亿参数的大模型,满足不同需求。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
model = AutoModelForSequenceClassification.from_pretrained("DTAI-KULeuven/robbert-2023-dutch-large")
你可以使用 HuggingFace 基于 BERT 的大部分笔记本 在你的荷兰语数据集上微调 RobBERT-2022。
📚 详细文档
可用荷兰语 BERT 模型比较
有多种基于荷兰语 BERT 的模型可用于你的任务微调。以下是一个快速总结,帮助你找到适合需求的模型:
- (本模型) DTAI-KULeuven/robbert-2023-dutch-large:RobBERT-2023 是第一个荷兰语大模型(3.55 亿参数)。它使用新的分词器在 OSCAR2023 上训练,采用了 我们的 Tik-to-Tok 方法。
- DTAI-KULeuven/robbert-2023-dutch-base:RobBERT-2023 是在 OSCAR2023 数据集上的新 RobBERT 模型,使用了全新的分词器。它对依赖单词和/或近期事件信息的任务很有帮助。
- DTAI-KULeuven/robbert-2022-dutch-base:RobBERT-2022 是在 OSCAR2022 数据集上进一步预训练的 RobBERT 模型。它对依赖单词和/或近期事件信息的任务很有帮助。
- pdelobelle/robbert-v2-dutch-base:多年来,RobBERT 模型在大多数语言任务中一直是表现最好的类似 BERT 的模型。它在一个大型荷兰语网络爬取数据集(OSCAR)上训练,并使用了更优的 RoBERTa 架构,该架构对原始 BERT 模型 进行了稳健优化。
- DTAI-KULeuven/robbertje-1-gb-merged:RobBERTje 模型是 RobBERT 的蒸馏版本,大小约为其一半,推理速度快四倍。这有助于为你的语言任务部署更具扩展性的语言模型。
还有 GroNLP/bert-base-dutch-cased “BERTje” 模型。该模型使用过时的基本 BERT 模型,并且在较小的干净荷兰语文本语料库上训练。由于 RobBERT 采用了更新的架构以及更大、更接近真实世界的训练语料库,大多数研究人员和从业者似乎在他们的语言任务中使用 RobBERT 模型能取得更高的性能。
如何复现我们论文中的实验
复现我们论文中的实验 在 RobBERT 仓库的 README 中有详细描述。预训练取决于模型,对于 RobBERT-2023,这基于 我们的 Tik-to-Tok 方法。
RobBERT 名称由来
大多数类似 BERT 的模型名称中都有 BERT 这个词(例如 RoBERTa、ALBERT、CamemBERT 以及 许多其他模型)。因此,我们使用其掩码语言模型对原始的 RobBERT 模型进行查询,让它以 \<mask\>bert 的形式给自己命名,使用了 各种 提示 方式,它始终称自己为 RobBERT。
我们认为这个名字非常合适,因为 RobBERT 是一个 非常荷兰化的名字(因此显然是一个荷兰语语言模型),并且与它的基础架构 RoBERTa 有很高的相似性。
由于 “rob” 在荷兰语中是表示海豹的词,我们决定画一只海豹,并把它打扮成 芝麻街的伯特 的样子,作为 RobBERT 标志。
📄 许可证
本项目采用 MIT 许可证。
🔧 技术细节
RobBERT-2023 和 RobBERT 都使用 RoBERTa 架构和预训练方法,但使用荷兰语分词器和训练数据。RoBERTa 是经过稳健优化的英语 BERT 模型,比原始 BERT 模型更强大。由于采用了相同的架构,RobBERT 可以使用 微调 RoBERTa 模型的代码 和大多数用于 BERT 模型的代码轻松进行微调并推理,例如 HuggingFace Transformers 库提供的代码。
默认情况下,RobBERT-2023 具有训练中使用的掩码语言模型头。这可以作为一种零样本方法来填充句子中的掩码。你可以在 RobBERT 在 Huggingface 的托管推理 API 上免费测试。你还可以使用 HuggingFace 的任何 RoBERTa 运行器、他们的微调笔记本,通过将模型名称更改为 pdelobelle/robbert-2023-dutch-large
为你自己的任务创建一个新的预测头。
🔗 引用信息
RobBERT 模型套件由 Pieter Delobelle、Thomas Winters、Bettina Berendt 和 François Remy 创建。如果你想引用我们的论文或模型,可以使用以下 BibTeX:
@misc{delobelle2023robbert2023conversion,
author = {Delobelle, P and Remy, F},
month = {Sep},
organization = {Antwerp, Belgium},
title = {RobBERT-2023: Keeping Dutch Language Models Up-To-Date at a Lower Cost Thanks to Model Conversion},
year = {2023},
startyear = {2023},
startmonth = {Sep},
startday = {22},
finishyear = {2023},
finishmonth = {Sep},
finishday = {22},
venue = {The 33rd Meeting of Computational Linguistics in The Netherlands (CLIN 33)},
day = {22},
publicationstatus = {published},
url= {https://clin33.uantwerpen.be/abstract/robbert-2023-keeping-dutch-language-models-up-to-date-at-a-lower-cost-thanks-to-model-conversion/}
}
@inproceedings{delobelle2022robbert2022,
doi = {10.48550/ARXIV.2211.08192},
url = {https://arxiv.org/abs/2211.08192},
author = {Delobelle, Pieter and Winters, Thomas and Berendt, Bettina},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use},
venue = {arXiv},
year = {2022},
}
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and
Winters, Thomas and
Berendt, Bettina",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292",
doi = "10.18653/v1/2020.findings-emnlp.292",
pages = "3255--3265"
}



