deberta-v3-base开源语言模型 - 免费部署助力自然语言理解任务

首页

Deberta V3 Base

由 microsoft 开发

DeBERTaV3是基于DeBERTa改进的预训练语言模型，通过梯度解耦嵌入共享的ELECTRA风格预训练方法提升效率，在自然语言理解任务上表现优异。

大型语言模型英语开源协议:MIT #解耦注意力 #ELECTRA风格预训练 #自然语言理解

下载量 1.6M

发布时间 : 3/2/2022

模型简介

DeBERTaV3通过解耦注意力机制和增强型掩码解码器改进BERT与RoBERTa模型，采用ELECTRA风格预训练进一步提升性能，适用于多种自然语言理解任务。

模型特点

解耦注意力机制

通过分离内容和位置注意力计算，更精确地建模文本依赖关系

ELECTRA风格预训练

采用梯度解耦嵌入共享的ELECTRA预训练方法，提升训练效率

增强型掩码解码器

改进的掩码语言建模机制，增强模型对上下文的捕捉能力

模型能力

文本分类

问答系统

自然语言推理

语义理解

使用案例

文本理解

问答系统

用于构建高精度问答系统

在SQuAD 2.0上F1得分88.4，EM得分85.4

文本分类

用于自然语言推理任务

在MNLI任务上准确率达90.6/90.7（匹配/不匹配）

🚀 DeBERTaV3：使用带梯度解耦嵌入共享的ELECTRA式预训练改进DeBERTa

DeBERTaV3模型基于ELECTRA式预训练和梯度解耦嵌入共享技术，进一步提升了DeBERTa的效率和性能。在下游任务中，相较于DeBERTa，V3版本显著提升了模型表现。

🚀 快速开始

微调NLU任务

我们展示了在SQuAD 2.0和MNLI任务上的开发结果。

模型	词汇量(K)	骨干参数数量(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-base + SiFT	128	86	-/-	91.0/-

我们还展示了在SQuAD 1.1/2.0和MNLI任务上的开发结果。

使用HF Transformers进行微调

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

✨ 主要特性

改进架构：DeBERTa通过解耦注意力和增强掩码解码器改进了BERT和RoBERTa模型。在80GB训练数据的情况下，DeBERTa在大多数NLU任务上的表现优于RoBERTa。
效率提升：在DeBERTa V3中，使用带梯度解耦嵌入共享的ELECTRA式预训练进一步提高了DeBERTa的效率。与DeBERTa相比，V3版本在下游任务上显著提升了模型性能。
模型参数：DeBERTa V3基础模型有12层，隐藏层大小为768。它只有8600万个骨干参数，词汇表包含12.8万个标记，在嵌入层引入了9800万个参数。该模型使用160GB数据进行训练，与DeBERTa V2相同。

🔧 技术细节

你可以从我们的论文中找到关于新模型的更多技术细节。

📚 详细文档

请查看官方仓库以获取更多实现细节和更新。

📄 许可证

本项目采用MIT许可证。

引用

如果你发现DeBERTa对你的工作有用，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}