language: de
license: mit
gpt2-wechsel-german
该模型采用WECHSEL方法训练:通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
代码库见:https://github.com/CPJKU/wechsel
论文详见:https://aclanthology.org/2022.naacl-main.293/
性能表现
RoBERTa模型
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-french |
82.43 |
90.88 |
86.65 |
camembert-base |
80.88 |
90.26 |
85.57 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-german |
81.79 |
89.72 |
85.76 |
deepset/gbert-base |
78.64 |
89.46 |
84.05 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-chinese |
78.32 |
80.55 |
79.44 |
bert-base-chinese |
76.55 |
82.05 |
79.30 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-swahili |
75.05 |
87.39 |
81.22 |
xlm-roberta-base |
69.18 |
87.37 |
78.28 |
GPT2模型
模型 |
困惑度 |
gpt2-wechsel-french |
19.71 |
gpt2 (从头训练) |
20.47 |
模型 |
困惑度 |
gpt2-wechsel-german |
26.8 |
gpt2 (从头训练) |
27.63 |
模型 |
困惑度 |
gpt2-wechsel-chinese |
51.97 |
gpt2 (从头训练) |
52.98 |
模型 |
困惑度 |
gpt2-wechsel-swahili |
10.14 |
gpt2 (从头训练) |
10.58 |
详情请参阅我们的论文。
引用
请按以下格式引用WECHSEL:
@inproceedings{minixhofer-etal-2022-wechsel,
title = "{WECHSEL}: 基于子词嵌入有效初始化的单语语言模型跨语言迁移方法",
author = "Minixhofer, Benjamin and
Paischer, Fabian and
Rekabsaz, Navid",
booktitle = "北美计算语言学协会2022年会论文集",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.293",
pages = "3992--4006",
abstract = "大规模预训练语言模型(LMs)已成为众多NLP应用的核心组件。训练这些模型需要消耗大量计算资源,且现有模型大多仅基于英文文本训练。用其他语言训练这类模型的成本极其高昂。为解决该问题,我们提出名为WECHSEL的创新方法——能高效实现预训练LM向新语言的迁移。该方法适用于所有采用子词分词机制并学习子词嵌入的模型。通过将源模型(英文)的分词器替换为目标语言分词器,并利用覆盖英文与目标语言的多语言静态词向量初始化语义相似的词嵌入。我们将英文RoBERTa和GPT-2模型迁移至四种语言(法语、德语、中文及斯瓦希里语),并验证了该方法在极低资源语言上的优势。相比现有跨语言参数迁移方案,WECHSEL表现更优,在最高减少64倍训练成本的情况下,性能超越同规模从头训练的模型。该方法显著降低了为新语言训练大语言模型的门槛与环境成本。所有代码与模型均已开源。",
}