🚀 mdeberta-v3-base-squad2 模型
本模型可用于抽取式问答任务,在多语言场景下表现出色。它基于 microsoft/mdeberta-v3-base
进行微调,能有效处理多种语言的问答需求。
🚀 快速开始
本模型可用于抽取式问答任务。它在 SQuAD2.0 数据集上进行了 3 个轮次的微调。
✨ 主要特性
- 多语言支持:支持多种语言,包括但不限于英语、中文、法语、德语等。
- 问答能力:经过微调,可用于抽取式问答任务。
- 基于 DeBERTa-V3:采用
microsoft/mdeberta-v3-base
作为基础模型。
📦 安装指南
文档未提及安装步骤,可参考 transformers
库的官方安装说明。
💻 使用示例
基础用法
from transformers import pipeline
qa_model = pipeline("question-answering", "timpal0l/mdeberta-v3-base-squad2")
question = "Where do I live?"
context = "My name is Tim and I live in Sweden."
qa_model(question = question, context = context)
📚 详细文档
模型评估
以下是在 SQuAD2.0 开发集上的评估结果:
{
"epoch": 3.0,
"eval_HasAns_exact": 79.65587044534414,
"eval_HasAns_f1": 85.91387795001529,
"eval_HasAns_total": 5928,
"eval_NoAns_exact": 82.10260723296888,
"eval_NoAns_f1": 82.10260723296888,
"eval_NoAns_total": 5945,
"eval_best_exact": 80.8809904826076,
"eval_best_exact_thresh": 0.0,
"eval_best_f1": 84.00551406448994,
"eval_best_f1_thresh": 0.0,
"eval_exact": 80.8809904826076,
"eval_f1": 84.00551406449004,
"eval_samples": 12508,
"eval_total": 11873,
"train_loss": 0.7729689576483615,
"train_runtime": 9118.953,
"train_samples": 134891,
"train_samples_per_second": 44.377,
"train_steps_per_second": 0.925
}
模型技术背景
DeBERTa 通过解耦注意力和增强掩码解码器改进了 BERT 和 RoBERTa 模型。在 80GB 训练数据的情况下,DeBERTa 在大多数 NLU 任务上优于 RoBERTa。
在 DeBERTa V3 中,我们使用带有梯度解耦嵌入共享的 ELECTRA 风格预训练进一步提高了 DeBERTa 的效率。与 DeBERTa 相比,我们的 V3 版本显著提高了模型在下游任务上的性能。你可以从我们的 论文 中找到关于新模型的更多技术细节。
请查看 官方仓库 以获取更多实现细节和更新。
mDeBERTa 是 DeBERTa 的多语言版本,它使用与 DeBERTa 相同的结构,并使用 CC100 多语言数据进行训练。mDeBERTa V3 基础模型有 12 层,隐藏层大小为 768。它有 8600 万个骨干参数,词汇表包含 25 万个标记,在嵌入层引入了 1.9 亿个参数。该模型使用 2.5T 的 CC100 数据进行训练,与 XLM - R 相同。
🔧 技术细节
- 模型类型:基于
microsoft/mdeberta-v3-base
的微调模型
- 训练数据:在 SQuAD2.0 数据集上进行 3 个轮次的微调
| 属性 | 详情 |
|------|------|
| 模型类型 | 基于
microsoft/mdeberta-v3-base
的微调模型 |
| 训练数据 | 在 SQuAD2.0 数据集上进行 3 个轮次的微调 |
📄 许可证
本模型使用 MIT 许可证。