语言:荷兰语
缩略图:https://github.com/iPieter/RobBERT/raw/master/res/robbert_logo.png
标签:
- 荷兰语
- 佛兰芒语
- RoBERTa
- RobBERT
- BERT
许可证:mit
数据集:
- oscar
- dbrd
- lassy-ud
- europarl-mono
- conll2002
小部件示例:
- 文本:Hallo, ik ben RobBERT, een taalmodel van de KU Leuven.
RobBERT: 基于RoBERTa的荷兰语语言模型
RobBERT 是最先进的荷兰语BERT模型。它是一个大规模预训练的通用荷兰语语言模型,可以通过微调适应任何文本分类、回归或标记任务。因此,它已被众多研究者和实践者成功用于各类荷兰语自然语言处理任务,包括:
并在以下任务中取得了接近最优的表现:
\* 注:部分评估基于RobBERT-v1,而改进版RobBERT-v2在所有测试中均优于第一版模型
(此列表并非详尽无遗。如果您将RobBERT用于其他应用,我们很乐意了解!请发送邮件或提交Pull Request补充。)
更多深入信息请参阅博客文章、论文及GitHub仓库。
使用方法
RobBERT采用RoBERTa架构与预训练流程,但使用荷兰语分词器和训练数据。RoBERTa是对原始BERT模型的优化版本,因此RobBERT比传统BERT更强大。由于架构相同,您可以直接使用RoBERTa微调代码或HuggingFace Transformers库进行微调和推理。
默认情况下,RobBERT保留预训练中的掩码语言模型头,可用于零样本填充句子中的掩码词。可通过HuggingFace的托管API免费体验。您也可通过以下方式自定义预测头:
基础模型调用代码:
from transformers import RobertaTokenizer, RobertaForSequenceClassification
tokenizer = RobertaTokenizer.from_pretrained("pdelobelle/robbert-v2-dutch-base")
model = RobertaForSequenceClassification.from_pretrained("pdelobelle/robbert-v2-dutch-base")
从transformers v2.4.0
开始,可改用AutoTokenizer和AutoModel,并兼容多数HuggingFace的BERT微调笔记本。
论文技术细节
性能评估结果
详细实验描述见论文,代码见GitHub仓库。
情感分析
使用荷兰书评数据集预测评论正负面:
模型 |
准确率(%) |
ULMFiT |
93.8 |
BERTje |
93.0 |
RobBERT v2 |
95.1 |
Die/Dat共指消解
基于EuroParl语料库测试"die/dat"填空能力:
全数据集微调
模型 |
准确率(%) |
F1(%) |
LSTM基线 |
- |
75.03 |
mBERT |
98.285 |
98.033 |
BERTje |
98.268 |
98.014 |
RobBERT v2 |
99.232 |
99.121 |
仅1万样本微调
小数据场景下RobBERT优势显著:
模型 |
准确率(%) |
F1(%) |
mBERT |
92.157 |
90.898 |
BERTje |
93.096 |
91.279 |
RobBERT v2 |
97.816 |
97.514 |
零样本掩码预测
模型 |
准确率(%) |
ZeroR |
66.70 |
mBERT |
90.21 |
BERTje |
94.94 |
RobBERT v2 |
98.75 |
词性标注
使用Lassy UD数据集:
模型 |
准确率(%) |
Frog |
91.7 |
mBERT |
96.5 |
BERTje |
96.3 |
RobBERT v2 |
96.4 |
小数据集表现尤为突出:

命名实体识别
使用CoNLL 2002评估脚本:
模型 |
F1(%) |
Frog |
57.31 |
mBERT |
90.94 |
BERT-NL |
89.7 |
BERTje |
88.3 |
RobBERT v2 |
89.08 |
预训练细节
采用RoBERTa训练方案,基于OSCAR语料库荷兰语部分(39GB/66亿词/1.26亿行文本)进行预训练。
模型架构与RoBERTa-base一致:
- 12层自注意力结构
- 12个头
- 1.17亿可训练参数
- 仅使用MLM任务(无NSP任务)
训练参数:
- Adam优化器(lr=10^-6,1000次线性预热)
- β1=0.9,β2=0.98
- 权重衰减0.1
- dropout率0.1
硬件配置:
- 计算集群(动态调整4×Nvidia P100 GPU/节点,最多20节点)
- 固定批次大小8192句
- 2个epoch(约16k批次,耗时3天)
局限性与偏见研究
论文中发现:
- 零样本模型对多数职业倾向于预测"hij"(他)而非"zij"(她)

- 在情感分析中,女性作者的积极书评识别准确率高于男性

复现实验
详细步骤见GitHub仓库README。
命名由来
通过掩码预测测试(如Mijn naam is bert),模型始终自称"RobBERT"。该名称:
- 是典型荷兰名(体现语言属性)
- 谐音RoBERTa(基础架构)
- "rob"在荷兰语中意为"海豹"
因此设计Logo为芝麻街Bert风格的海豹形象:

致谢与引用
由Pieter Delobelle、Thomas Winters和Bettina Berendt开发。引用格式:
@inproceedings{delobelle2020robbert,
title = "{R}ob{BERT}: a {D}utch {R}o{BERT}a-based {L}anguage {M}odel",
author = "Delobelle, Pieter and Winters, Thomas and Berendt, Bettina",
booktitle = "Findings of EMNLP 2020",
year = "2020",
pages = "3255--3265",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.292"
}