license: mit
language:
- de
tags:
- RoBERTa
- GottBERT
- BERT
GottBERT:纯德语语言模型
GottBERT是首个专为德语设计的RoBERTa模型,基于首版OSCAR数据集的德语部分进行预训练。该模型旨在为德语自然语言处理(NLP)任务提供增强性能,包括命名实体识别(NER)、文本分类和自然语言推理(NLI)。GottBERT开发了基础版和大模型版两个版本,专门针对德语任务优化。
- 模型类型: RoBERTa
- 语言: 德语
- 基础模型: 12层,1.25亿参数
- 大模型: 24层,3.55亿参数
- 许可协议: MIT
详情参见论文GottBERT: a pure German Language Model。
预训练细节
- 语料库: OSCAR数据集的德语部分(来自Common Crawl)。
- 数据规模:
- 未过滤: 145GB(约4.59亿文档)
- 过滤后: 121GB(约3.82亿文档)
- 预处理: 包括纠正编码错误(如错误的变音符号)、通过语言检测和句法过滤移除垃圾和非德语文档。
过滤指标
- 停用词比例: 检测垃圾和无意义内容。
- 标点比例: 检测异常标点模式。
- 大写词比例: 识别包含过多大写词的文档(通常是噪声内容)。
训练配置
- 框架: Fairseq
- 硬件:
- 基础模型: 256个TPUv3 pod/128个TPUv4 pod
- 大模型: 128个TPUv4 pod
- 训练时间:
- 批大小: 8k tokens
- 学习率:
- 基础版: 峰值LR = 0.0004
- 大模型版: 峰值LR = 0.00015
- 训练迭代: 10万步(含1万步预热阶段)
评估与结果
GottBERT在多项下游任务中进行了评估:
- NER: CoNLL 2003, GermEval 2014
- 文本分类: GermEval 2018(粗粒度与细粒度)、10kGNAD
- NLI: XNLI的德语子集
评估指标:
说明:
- 粗体数值表示同架构(基础版/大模型)中最佳表现,下划线表示次优表现。
模型 |
NLI准确率 |
GermEval_14 F1 |
CoNLL F1 |
粗粒度F1 |
细粒度F1 |
10kGNAD F1 |
GottBERT_base_best |
80.82 |
87.55 |
85.93 |
78.17 |
53.30 |
89.64 |
GottBERT_base_last |
81.04 |
87.48 |
85.61 |
78.18 |
53.92 |
90.27 |
GottBERT_filtered_base_best |
80.56 |
87.57 |
86.14 |
78.65 |
52.82 |
89.79 |
GottBERT_filtered_base_last |
80.74 |
87.59 |
85.66 |
78.08 |
52.39 |
89.92 |
GELECTRA_base |
81.70 |
86.91 |
85.37 |
77.26 |
50.07 |
89.02 |
GBERT_base |
80.06 |
87.24 |
85.16 |
77.37 |
51.51 |
90.30 |
dbmdzBERT |
68.12 |
86.82 |
85.15 |
77.46 |
52.07 |
90.34 |
GermanBERT |
78.16 |
86.53 |
83.87 |
74.81 |
47.78 |
90.18 |
XLM-R_base |
79.76 |
86.14 |
84.46 |
77.13 |
50.54 |
89.81 |
mBERT |
77.03 |
86.67 |
83.18 |
73.54 |
48.32 |
88.90 |
GottBERT_large |
82.46 |
88.20 |
86.78 |
79.40 |
54.61 |
90.24 |
GottBERT_filtered_large_best |
83.31 |
88.13 |
86.30 |
79.32 |
54.70 |
90.31 |
GottBERT_filtered_large_last |
82.79 |
88.27 |
86.28 |
78.96 |
54.72 |
90.17 |
GELECTRA_large |
86.33 |
88.72 |
86.78 |
81.28 |
56.17 |
90.97 |
GBERT_large |
84.21 |
88.72 |
87.19 |
80.84 |
57.37 |
90.74 |
XLM-R_large |
84.07 |
88.83 |
86.54 |
79.05 |
55.06 |
90.17 |
模型架构
- 基础模型: 12层,1.25亿参数,52k词表。
- 大模型: 24层,3.55亿参数,52k词表。
分词器
- 类型: GPT-2字节对编码(BPE)
- 词表大小: 52k子词单元
- 训练数据: 未过滤德语OSCAR语料的40GB子集。
局限性
- 过滤与未过滤数据: 过滤数据仅带来微小改进,并非所有场景都值得额外处理。
- 计算限制: TPU固定内存分配需将数据作为单流处理(不同于GPU训练可保留文档边界)。受框架限制,训练采用32位模式导致内存占用增加。
Fairseq检查点
获取fairseq检查点请访问此处。
引用
若在研究中使用了GottBERT,请引用以下论文:
@inproceedings{scheible-etal-2024-gottbert,
title = "{G}ott{BERT}: 纯德语语言模型",
author = "Scheible, Raphael and
Frei, Johann and
Thomczyk, Fabian and
He, Henry and
Tippmann, Patric and
Knaus, Jochen and
Jaravine, Victor and
Kramer, Frank and
Boeker, Martin",
editor = "Al-Onaizan, Yaser and
Bansal, Mohit and
Chen, Yun-Nung",
booktitle = "2024年自然语言处理实证方法会议论文集",
month = nov,
year = "2024",
address = "美国佛罗里达州迈阿密",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2024.emnlp-main.1183",
pages = "21237--21250",
}