数据集:
- ZeyadAhmed/Arabic-SQuADv2.0
语言:
- ar
评估指标:
- 名称: 精确匹配
类型: exact_match
数值: 65.12
- 名称: F1分数
类型: f1
数值: 71.49
基于阿拉伯语SQuADv2的AraElectra问答模型
这是经过阿拉伯语SQuADv2.0数据集微调的AraElectra模型。该模型通过训练问答对(包括不可回答问题)来完成问答任务,并借助AraElectra分类器预测不可回答问题。
概述
语言模型: AraElectra
语言: 阿拉伯语
下游任务: 抽取式问答
训练数据: 阿拉伯语SQuADv2.0
评估数据: 阿拉伯语SQuADv2.0
测试数据: 阿拉伯语SQuADv2.0
代码: 查看Github上的更多信息
基础设施: 1块Tesla K80显卡
超参数设置
批量大小 = 8
训练轮数 = 4
基础语言模型 = "AraElectra"
学习率 = 3e-5
优化器 = AdamW
填充方式 = 动态
阿拉伯语维基百科及用户提供文本的在线演示
通过Streamlit体验模型效果 
使用方法
为获得最佳效果,建议使用aub-mind开发的AraBert预处理器
from transformers import ElectraForQuestionAnswering, ElectraForSequenceClassification, AutoTokenizer, pipeline
from preprocess import ArabertPreprocessor
prep_object = ArabertPreprocessor("araelectra-base-discriminator")
question = prep_object('ما هي جامعة الدول العربية ؟')
context = prep_object('''
جامعة الدول العربية هيمنظمة إقليمية تضم دولاً عربية في آسيا وأفريقيا.
ينص ميثاقها على التنسيق بين الدول الأعضاء في الشؤون الاقتصادية، ومن ضمنها العلاقات التجارية الاتصالات، العلاقات الثقافية، الجنسيات ووثائق وأذونات السفر والعلاقات الاجتماعية والصحة. المقر الدائم لجامعة الدول العربية يقع في القاهرة، عاصمة مصر (تونس من 1979 إلى 1990).
''')
qa_modelname = 'ZeyadAhmed/AraElectra-Arabic-SQuADv2-QA'
cls_modelname = 'ZeyadAhmed/AraElectra-Arabic-SQuADv2-CLS'
qa_pipe = pipeline('question-answering', model=qa_modelname, tokenizer=qa_modelname)
QA_input = {
'question': question,
'context': context
}
CLS_input = {
'text': question,
'text_pair': context
}
qa_res = qa_pipe(QA_input)
cls_res = cls_pipe(CLS_iput)
threshold = 0.5
qa_model = ElectraForQuestionAnswering.from_pretrained(qa_modelname)
cls_model = ElectraForSequenceClassification.from_pretrained(cls_modelname)
tokenizer = AutoTokenizer.from_pretrained(qa_modelname)
性能表现
使用官方评估脚本在阿拉伯语SQuAD 2.0测试集上进行评估,预处理阶段稍作修改以适应阿拉伯语特性修改版评估脚本。
"精确匹配": 65.11555277951281,
"F1分数": 71.49042547237256,
"总样本数": 9606,
"可答问题_精确匹配": 56.14535768645358,
"可答问题_F1分数": 67.79623803036668,
"可答问题数量": 5256,
"不可答问题_精确匹配": 75.95402298850574,
"不可答问题_F1分数": 75.95402298850574,
"不可答问题数量": 4350