language: fr
license: mit
gpt2-wechsel-法语版
该模型采用WECHSEL方法训练:通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
代码详见:https://github.com/CPJKU/wechsel
论文详见:https://aclanthology.org/2022.naacl-main.293/
性能表现
RoBERTa
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-french |
82.43 |
90.88 |
86.65 |
camembert-base |
80.88 |
90.26 |
85.57 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-german |
81.79 |
89.72 |
85.76 |
deepset/gbert-base |
78.64 |
89.46 |
84.05 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-chinese |
78.32 |
80.55 |
79.44 |
bert-base-chinese |
76.55 |
82.05 |
79.30 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-swahili |
75.05 |
87.39 |
81.22 |
xlm-roberta-base |
69.18 |
87.37 |
78.28 |
GPT2
模型 |
困惑度 |
gpt2-wechsel-french |
19.71 |
gpt2 (从头训练) |
20.47 |
模型 |
困惑度 |
gpt2-wechsel-german |
26.8 |
gpt2 (从头训练) |
27.63 |
模型 |
困惑度 |
gpt2-wechsel-chinese |
51.97 |
gpt2 (从头训练) |
52.98 |
模型 |
困惑度 |
gpt2-wechsel-swahili |
10.14 |
gpt2 (从头训练) |
10.58 |
详情请参阅我们的论文。
引用
请按以下格式引用WECHSEL:
@inproceedings{minixhofer-etal-2022-wechsel,
title = "{WECHSEL}: 基于子词嵌入有效初始化的单语语言模型跨语言迁移方法",
author = "Minixhofer, Benjamin and
Paischer, Fabian and
Rekabsaz, Navid",
booktitle = "北美计算语言学协会2022年会论文集",
month = jul,
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.293",
pages = "3992--4006",
abstract = "大规模预训练语言模型(LM)已成为众多NLP应用的核心组件。训练这些模型需要消耗越来越多的计算资源,且现有模型大多仅基于英文文本训练。用其他语言训练这类模型的成本极高。为解决该问题,我们提出了一种创新方法WECHSEL,能高效实现预训练LM向新语言的迁移。该方法适用于所有基于子词分词并学习子词嵌入的模型:将源模型(英文)的分词器替换为目标语言分词器,并利用覆盖英文与目标语言的多语言静态词向量初始化语义相似的词嵌入。我们使用WECHSEL将英文RoBERTa和GPT-2模型迁移至四种语言(法语、德语、中文和斯瓦希里语),同时验证了该方法在极低资源语言上的优势。相比现有跨语言参数迁移方案,WECHSEL表现更优,在模型规模相当的情况下,其训练成本最高可降低64倍。该方法大幅降低了为新语言训练大语言模型的门槛与环境成本。我们公开了所有代码与模型。"
}