language:
- 多语言
- 英语
- 阿拉伯语
- 保加利亚语
- 德语
- 希腊语
- 西班牙语
- 法语
- 印地语
- 俄语
- 斯瓦希里语
- 泰语
- 土耳其语
- 乌尔都语
- 越南语
- 中文
tags:
- deberta
- deberta-v3
- mdeberta
- 填充掩码
thumbnail: https://huggingface.co/front/thumbnails/microsoft.png
license: mit
DeBERTaV3:通过梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa
DeBERTa通过解耦注意力机制和增强型掩码解码器改进了BERT和RoBERTa模型。凭借这两项改进,DeBERTa在使用80GB训练数据时,在大多数NLU任务上超越了RoBERTa。
在DeBERTa V3中,我们采用ELECTRA式预训练与梯度解耦嵌入共享技术,进一步提升了DeBERTa的效率。相比原版DeBERTa,V3版本在下游任务中的模型性能显著提升。更多技术细节请参阅我们的论文。
请访问官方代码库获取更多实现细节和更新。
mDeBERTa是DeBERTa的多语言版本,其结构与DeBERTa相同,并使用CC100多语言数据进行训练。
mDeBERTa V3基础模型包含12个网络层,隐藏层维度为768。主干参数8600万,词表包含25万token(嵌入层参数1.9亿)。该模型使用2.5T的CC100数据训练,方法与XLM-R相同。
NLU任务微调
我们展示了XNLI开发集的零样本跨语言迁移测试结果(仅用英语数据训练,其他语言测试):
模型 |
平均 |
英 |
法 |
西 |
德 |
希 |
保 |
俄 |
土 |
阿 |
越 |
泰 |
中 |
印 |
斯 |
乌 |
XLM-R-base |
76.2 |
85.8 |
79.7 |
80.7 |
78.7 |
77.5 |
79.6 |
78.1 |
74.2 |
73.8 |
76.5 |
74.6 |
76.7 |
72.4 |
66.5 |
68.3 |
mDeBERTa-base |
79.8±0.2 |
88.2 |
82.6 |
84.4 |
82.7 |
82.3 |
82.4 |
80.8 |
79.5 |
78.5 |
78.1 |
76.4 |
79.5 |
75.9 |
73.9 |
72.4 |
使用HF transformers微调
#!/bin/bash
cd transformers/examples/pytorch/text-classification/
pip install datasets
output_dir="ds_results"
num_gpus=8
batch_size=4
python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
run_xnli.py \
--model_name_or_path microsoft/mdeberta-v3-base \
--task_name $TASK_NAME \
--do_train \
--do_eval \
--train_language en \
--language en \
--evaluation_strategy steps \
--max_seq_length 256 \
--warmup_steps 3000 \
--per_device_train_batch_size ${batch_size} \
--learning_rate 2e-5 \
--num_train_epochs 6 \
--output_dir $output_dir \
--overwrite_output_dir \
--logging_steps 1000 \
--logging_dir $output_dir
引用
如果您认为DeBERTa对您的工作有帮助,请引用以下论文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}