R

Robbert V2 Dutch Base

由 pdelobelle 开发
RobBERT是当前最先进的荷兰语BERT模型,基于RoBERTa架构优化,适用于各类文本分类和标记任务
下载量 7,891
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

RobBERT是一个大规模预训练的通用荷兰语语言模型,通过微调可适应文本分类、回归或标记任务。在多项荷兰语NLP任务中表现最优,包括情感分析、指代消解、命名实体识别等。

模型特点

荷兰语优化
专门针对荷兰语训练,使用荷兰语分词器和66亿词的大规模语料库
RoBERTa架构优势
采用优化的RoBERTa架构,比原始BERT性能更强
小样本学习能力
在小数据集场景下表现尤为突出,显著优于其他模型

模型能力

情感分析
指代消解
命名实体识别
词性标注
掩码语言建模
文本分类

使用案例

情感分析
书评情感分类
分析荷兰语书评的正负面情绪
准确率95.1%,优于ULMFiT(93.8%)和BERTje(93.0%)
语法分析
die/dat指代消解
预测句子中应使用'die'还是'dat'
全数据微调准确率99.23%,小样本(1万)97.82%
词性标注
为荷兰语文本标注词性
Lassy UD数据集准确率96.4%,接近mBERT(96.5%)
信息提取
命名实体识别
识别文本中的人名、地名等实体
CoNLL 2002数据集F1值89.08%,接近mBERT(90.94%)