mdeberta-v3-base-squad2开源多语言问答模型

首页

Mdeberta V3 Base Squad2

由 timpal0l 开发

基于mDeBERTa-v3-base的多语言问答模型，在SQuAD2.0数据集上进行了微调

问答系统

Transformers

支持多种语言开源协议:MIT #多语言问答 #高精度抽取 #SQuAD2.0微调

下载量 14.06k

发布时间 : 11/30/2022

模型简介

该模型是基于mDeBERTa-v3-base的多语言抽取式问答模型，专门针对问答任务进行了优化，支持多种语言的问答处理。

模型特点

多语言支持

支持超过90种语言的问答处理，适用于多语言环境下的问答任务。

DeBERTaV3架构

采用改进的DeBERTaV3架构，通过梯度解耦嵌入共享的ELECTRA风格预训练，提高了模型效率。

SQuAD2.0微调

在SQuAD2.0数据集上进行了3轮微调，优化了问答性能。

模型能力

多语言问答

文本理解

答案抽取

使用案例

问答系统

多语言客服问答

用于构建支持多种语言的自动客服系统，能够理解并回答用户的问题。

在SQuAD2.0开发集上达到80.88%的准确率

知识库检索

从大量文本中快速检索并提取相关答案。

F1分数达到84.01%

🚀 mdeberta-v3-base-squad2 模型

本模型可用于抽取式问答任务，在多语言场景下表现出色。它基于 microsoft/mdeberta-v3-base 进行微调，能有效处理多种语言的问答需求。

🚀 快速开始

本模型可用于抽取式问答任务。它在 SQuAD2.0 数据集上进行了 3 个轮次的微调。

✨ 主要特性

多语言支持：支持多种语言，包括但不限于英语、中文、法语、德语等。
问答能力：经过微调，可用于抽取式问答任务。
基于 DeBERTa-V3：采用 microsoft/mdeberta-v3-base 作为基础模型。

📦 安装指南

文档未提及安装步骤，可参考 transformers 库的官方安装说明。

💻 使用示例

基础用法

from transformers import pipeline

qa_model = pipeline("question-answering", "timpal0l/mdeberta-v3-base-squad2")
question = "Where do I live?"
context = "My name is Tim and I live in Sweden."
qa_model(question = question, context = context)
# {'score': 0.975547730922699, 'start': 28, 'end': 36, 'answer': ' Sweden.'}

📚 详细文档

模型评估

以下是在 SQuAD2.0 开发集上的评估结果：

{
    "epoch": 3.0,
    "eval_HasAns_exact": 79.65587044534414,
    "eval_HasAns_f1": 85.91387795001529,
    "eval_HasAns_total": 5928,
    "eval_NoAns_exact": 82.10260723296888,
    "eval_NoAns_f1": 82.10260723296888,
    "eval_NoAns_total": 5945,
    "eval_best_exact": 80.8809904826076,
    "eval_best_exact_thresh": 0.0,
    "eval_best_f1": 84.00551406448994,
    "eval_best_f1_thresh": 0.0,
    "eval_exact": 80.8809904826076,
    "eval_f1": 84.00551406449004,
    "eval_samples": 12508,
    "eval_total": 11873,
    "train_loss": 0.7729689576483615,
    "train_runtime": 9118.953,
    "train_samples": 134891,
    "train_samples_per_second": 44.377,
    "train_steps_per_second": 0.925
}

模型技术背景

DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下，DeBERTa 在大多数 NLU 任务上优于 RoBERTa。

在 DeBERTa V3 中，我们使用带有梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。与 DeBERTa 相比，我们的 V3 版本显著提高了模型在下游任务上的性能。你可以从我们的论文中找到关于新模型的更多技术细节。

请查看官方仓库以获取更多实现细节和更新。

mDeBERTa 是 DeBERTa 的多语言版本，它使用与 DeBERTa 相同的结构，并使用 CC100 多语言数据进行训练。mDeBERTa V3 基础模型有 12 层，隐藏层大小为 768。它有 8600 万个骨干参数，词汇表包含 25 万个标记，在嵌入层引入了 1.9 亿个参数。该模型使用 2.5T 的 CC100 数据进行训练，与 XLM - R 相同。

🔧 技术细节

模型类型：基于 microsoft/mdeberta-v3-base 的微调模型
训练数据：在 SQuAD2.0 数据集上进行 3 个轮次的微调 | 属性 | 详情 | |------|------| | 模型类型 | 基于 microsoft/mdeberta-v3-base 的微调模型 | | 训练数据 | 在 SQuAD2.0 数据集上进行 3 个轮次的微调 |