language: zh
license: mit
gpt2-wechsel-中文版
该模型采用WECHSEL方法训练:通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
代码库见:https://github.com/CPJKU/wechsel
论文详见:https://aclanthology.org/2022.naacl-main.293/
性能表现
RoBERTa
模型 |
NLI得分 |
NER得分 |
平均分 |
roberta-base-wechsel-french |
82.43 |
90.88 |
86.65 |
camembert-base |
80.88 |
90.26 |
85.57 |
模型 |
NLI得分 |
NER得分 |
平均分 |
roberta-base-wechsel-german |
81.79 |
89.72 |
85.76 |
deepset/gbert-base |
78.64 |
89.46 |
84.05 |
模型 |
NLI得分 |
NER得分 |
平均分 |
roberta-base-wechsel-chinese |
78.32 |
80.55 |
79.44 |
bert-base-chinese |
76.55 |
82.05 |
79.30 |
模型 |
NLI得分 |
NER得分 |
平均分 |
roberta-base-wechsel-swahili |
75.05 |
87.39 |
81.22 |
xlm-roberta-base |
69.18 |
87.37 |
78.28 |
GPT2
模型 |
困惑度 |
gpt2-wechsel-french |
19.71 |
gpt2 (从头训练) |
20.47 |
模型 |
困惑度 |
gpt2-wechsel-german |
26.8 |
gpt2 (从头训练) |
27.63 |
模型 |
困惑度 |
gpt2-wechsel-chinese |
51.97 |
gpt2 (从头训练) |
52.98 |
模型 |
困惑度 |
gpt2-wechsel-swahili |
10.14 |
gpt2 (从头训练) |
10.58 |
详情请参阅我们的论文。
引用
请按以下格式引用WECHSEL:
@inproceedings{minixhofer-etal-2022-wechsel,
title = "{WECHSEL}: 单语语言模型跨语言迁移的子词嵌入有效初始化方法",
author = "Minixhofer, Benjamin and
Paischer, Fabian and
Rekabsaz, Navid",
booktitle = "北美计算语言学协会2022年会论文集",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.293",
pages = "3992--4006",
abstract = "大规模预训练语言模型(LMs)已成为众多NLP应用的核心组件。训练这些模型需要消耗大量计算资源,且现有模型多数仅针对英语文本训练。在其他语言中训练这些模型的成本极其高昂。为缓解该问题,我们提出名为WECHSEL的创新方法——能高效实现预训练LM向新语言的迁移。该方法适用于所有采用子词分词机制并学习子词嵌入的模型。通过将源模型(英语)的分词器替换为目标语言分词器,并利用覆盖英语与目标语言的多语言静态词向量初始化词嵌入,使得目标语言子词与英语对应子词语义相似。我们应用WECHSEL将英语RoBERTa和GPT-2模型迁移至四种语言(法语、德语、中文及斯瓦希里语),同时验证了该方法在极低资源语言上的优势。相比现有跨语言参数迁移方案,WECHSEL显著提升性能,在取得可比模型规模的前提下,最高可减少64倍训练成本。该方法使得面向新语言的大语言模型训练更易实现且更环保。我们已公开代码与模型。",
}