language: zh
license: mit
roberta-base-wechsel-chinese
该模型采用WECHSEL方法训练:通过有效初始化子词嵌入实现单语语言模型的跨语言迁移。
代码库见:https://github.com/CPJKU/wechsel
论文详见:https://aclanthology.org/2022.naacl-main.293/
性能表现
RoBERTa模型
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-french |
82.43 |
90.88 |
86.65 |
camembert-base |
80.88 |
90.26 |
85.57 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-german |
81.79 |
89.72 |
85.76 |
deepset/gbert-base |
78.64 |
89.46 |
84.05 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-chinese |
78.32 |
80.55 |
79.44 |
bert-base-chinese |
76.55 |
82.05 |
79.30 |
模型 |
NLI得分 |
NER得分 |
平均得分 |
roberta-base-wechsel-swahili |
75.05 |
87.39 |
81.22 |
xlm-roberta-base |
69.18 |
87.37 |
78.28 |
GPT2模型
模型 |
困惑度 |
gpt2-wechsel-french |
19.71 |
gpt2 (从头训练) |
20.47 |
模型 |
困惑度 |
gpt2-wechsel-german |
26.8 |
gpt2 (从头训练) |
27.63 |
模型 |
困惑度 |
gpt2-wechsel-chinese |
51.97 |
gpt2 (从头训练) |
52.98 |
模型 |
困惑度 |
gpt2-wechsel-swahili |
10.14 |
gpt2 (从头训练) |
10.58 |
详情请参阅我们的论文。
引用
请按以下格式引用WECHSEL:
@inproceedings{minixhofer-etal-2022-wechsel,
title = "{WECHSEL}: 单语语言模型跨语言迁移的子词嵌入有效初始化方法",
author = "Minixhofer, Benjamin and
Paischer, Fabian and
Rekabsaz, Navid",
booktitle = "北美计算语言学协会2022年会论文集",
month = "7月",
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.293",
pages = "3992--4006",
abstract = "大规模预训练语言模型(LMs)已成为众多NLP应用的核心组件。训练这些模型需要消耗大量计算资源,且现有模型大多仅基于英文文本训练。用其他语言训练这些模型的成本极其高昂。为缓解该问题,我们提出创新方法WECHSEL——能高效实现预训练LM向新语言的迁移。该方法适用于所有采用子词分词机制且学习子词嵌入的模型。通过将源模型(英文)的分词器替换为目标语言分词器,并利用覆盖英文与目标语言的多语言静态词向量初始化词嵌入,使得目标语言子词与英文对应子词语义相似。我们将英文RoBERTa和GPT-2模型迁移至四种语言(法语、德语、中文及斯瓦希里语),并验证了该方法在极低资源语言上的优势。相比现有跨语言参数迁移方案,WECHSEL表现更优,在模型规模相当的情况下,最高可减少64倍训练成本。该方法显著降低了为新语言训练大语言模型的门槛与环境代价。我们公开了所有代码与模型。",
}