语言: sw
许可证: mit
roberta-base-wechsel-swahili
使用WECHSEL训练的模型:有效初始化子词嵌入以实现单语语言模型的跨语言迁移。
代码参见:https://github.com/CPJKU/wechsel
论文参见:https://aclanthology.org/2022.naacl-main.293/
性能表现
RoBERTa
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-french |
82.43 |
90.88 |
86.65 |
camembert-base |
80.88 |
90.26 |
85.57 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-german |
81.79 |
89.72 |
85.76 |
deepset/gbert-base |
78.64 |
89.46 |
84.05 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-chinese |
78.32 |
80.55 |
79.44 |
bert-base-chinese |
76.55 |
82.05 |
79.30 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-swahili |
75.05 |
87.39 |
81.22 |
xlm-roberta-base |
69.18 |
87.37 |
78.28 |
GPT2
模型 |
PPL |
gpt2-wechsel-french |
19.71 |
gpt2 (从头训练) |
20.47 |
模型 |
PPL |
gpt2-wechsel-german |
26.8 |
gpt2 (从头训练) |
27.63 |
模型 |
PPL |
gpt2-wechsel-chinese |
51.97 |
gpt2 (从头训练) |
52.98 |
模型 |
PPL |
gpt2-wechsel-swahili |
10.14 |
gpt2 (从头训练) |
10.58 |
详情请参阅我们的论文。
引用
请按以下方式引用WECHSEL:
@inproceedings{minixhofer-etal-2022-wechsel,
title = "{WECHSEL}: 子词嵌入的有效初始化以实现单语语言模型的跨语言迁移",
author = "Minixhofer, Benjamin and
Paischer, Fabian and
Rekabsaz, Navid",
booktitle = "北美计算语言学协会2022年会论文集:人类语言技术",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.293",
pages = "3992--4006",
abstract = "大型预训练语言模型(LMs)已成为许多NLP应用的核心构建模块。训练这些模型需要越来越多的计算资源,且大多数现有模型仅针对英语文本训练。在其他语言中训练这些模型成本极高。为缓解这一问题,我们提出了一种名为WECHSEL的新方法,以高效且有效地将预训练LMs迁移至新语言。WECHSEL适用于任何使用基于子词的标记化并学习每个子词嵌入的模型。源模型(英语)的标记器被替换为目标语言的标记器,并通过利用覆盖英语和目标语言的多语言静态词嵌入,初始化标记嵌入使其在语义上与英语标记相似。我们使用WECHSEL将英语RoBERTa和GPT-2模型迁移至四种语言(法语、德语、中文和斯瓦希里语)。我们还研究了该方法在极低资源语言上的优势。WECHSEL优于现有的跨语言参数迁移方法,并在训练量减少高达64倍的情况下,超越同等规模从头训练的模型。我们的方法使为新语言训练大型语言模型更加可行且对环境更友好。我们公开了代码和模型。",
}