dpr

首页

Dpr Question Encoder Fr Qa Camembert

由 AgentPublic 开发

基于CamemBERT的法语DPR模型，专为法语问答任务优化，在PIAF、FQuAD和SQuAD-FR数据集上微调

问答系统

Transformers

法语#法语问答检索 #密集段落检索 #多数据集微调

下载量 229

发布时间 : 3/2/2022

模型简介

该模型是一个密集段落检索(DPR)的问句编码器，用于法语问答系统，能够将问题编码为高维向量以便检索相关段落。

模型特点

法语优化

专门针对法语问答任务进行优化，在三个主要法语问答数据集上微调

密集检索

采用密集段落检索(DPR)方法，相比传统BM25能捕捉更深层次的语义关系

困难负例训练

训练时使用困难负例策略，提高了模型区分相关与不相关段落的能力

模型能力

法语问题编码

语义相似度计算

段落检索

使用案例

问答系统

法语开放域问答

在法语问答系统中作为检索组件，快速找到可能包含答案的段落

在前20个候选段落中达到86-89%的召回率

文档检索

用于法语文档集合中的相关内容检索

🚀 dpr-question_encoder-fr_qa-camembert

这是一个法语DPR模型，以CamemBERT为基础模型，并在三个法语问答数据集的组合上进行了微调，可用于法语问答相关任务。

🚀 快速开始

该模型基于CamemBERT微调，使用了三个法语问答数据集，可用于法语问答任务。你可以按照下面的使用示例进行操作。

✨ 主要特性

基于CamemBERT模型，利用其强大的法语语言理解能力。
在多个法语问答数据集上进行微调，提升了模型在法语问答场景下的性能。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库（如transformers、haystack）的官方文档进行安装。

💻 使用示例

基础用法

使用transformers库获取问题嵌入：

from transformers import AutoTokenizer, AutoModel
query = "Salut, mon chien est-il mignon ?"
tokenizer = AutoTokenizer.from_pretrained("etalab-ia/dpr-question_encoder-fr_qa-camembert",  do_lower_case=True)
input_ids = tokenizer(query, return_tensors='pt')["input_ids"]
model = AutoModel.from_pretrained("etalab-ia/dpr-question_encoder-fr_qa-camembert", return_dict=True)
embeddings = model.forward(input_ids).pooler_output
print(embeddings)

高级用法

使用haystack库作为检索器：

retriever = DensePassageRetriever(
    document_store=document_store,
    query_embedding_model="etalab-ia/dpr-question_encoder-fr_qa-camembert",
    passage_embedding_model="etalab-ia/dpr-ctx_encoder-fr_qa-camembert",
    model_version=dpr_model_tag,
    infer_tokenizer_classes=True,
)

📚 详细文档

数据

法语问答数据集

我们使用了三个法语问答数据集的组合：

训练数据

我们使用90562个随机问题进行训练，22391个问题进行验证。训练集中的问题不会出现在验证集中。对于每个问题，我们有一个正上下文（找到该问题答案的段落）和大约30个硬负上下文。硬负上下文是通过查询ES实例（通过bm25检索）并获取不包含答案的前k个候选段落得到的。训练和验证文件可在这里获取。

评估数据

我们使用FQuADv1.0和French-SQuAD评估集进行评估。

训练脚本

我们使用官方的Facebook DPR实现，并进行了轻微修改：默认情况下，代码可以与Roberta模型一起使用，但我们修改了一行代码，使其更易于与CamemBERT一起使用。此修改可在这里找到。

超参数

python -m torch.distributed.launch --nproc_per_node=8 train_dense_encoder.py \
--max_grad_norm 2.0 --encoder_model_type hf_bert --pretrained_file data/bert-base-multilingual-uncased \
--seed 12345 --sequence_length 256 --warmup_steps 1237 --batch_size 16 --do_lower_case \
--train_file DPR_FR_train.json \
--dev_file  ./data/100_hard_neg_ctxs/DPR_FR_dev.json \
--output_dir ./output/bert --learning_rate 2e-05 --num_train_epochs 35 \
--dev_batch_size 16 --val_av_rank_start_epoch 25 \
--pretrained_model_cfg ./data/bert-base-multilingual-uncased

评估结果

我们使用FQuAD和SQuAD-FR评估（或验证）集获得了以下评估结果。为了获得这些结果，我们使用了haystack的评估脚本（我们仅报告检索结果）。

FQuAD v1.0评估

在3184个问题中，有2764个问题（86.81%）的答案在检索器选择的前20个候选段落中。
检索器召回率：0.87
检索器平均精度均值：0.57

SQuAD-FR评估

在10018个问题中，有8945个问题（89.29%）的答案在检索器选择的前20个候选段落中。
检索器召回率：0.89
检索器平均精度均值：0.63

BM25

作为参考，BM25的结果如下。与原论文一样，对于类似SQuAD的数据集，DPR的结果始终低于BM25。

FQuAD v1.0评估

在3184个问题中，有2966个问题（93.15%）的答案在检索器选择的前20个候选段落中。
检索器召回率：0.93
检索器平均精度均值：0.74

SQuAD-FR评估

在10018个问题中，有9353个问题（93.36%）的答案在检索器选择的前20个候选段落中。
检索器召回率：0.93
检索器平均精度均值：0.77

🔧 技术细节

该模型以CamemBERT为基础模型，基于DPR模型架构，在三个法语问答数据集上进行微调。训练时使用了特定的训练和验证数据划分，以及硬负上下文的策略。评估时使用了FQuAD和SQuAD-FR评估集，并通过特定的评估脚本来评估模型性能。

📄 许可证

文档未提及许可证信息。

👏 致谢

本工作使用了GENCI - IDRIS的HPC资源（资助号：2020 - AD011011224）。

📚 引用

数据集

PIAF

@inproceedings{KeraronLBAMSSS20,
  author    = {Rachel Keraron and
               Guillaume Lancrenon and
               Mathilde Bras and
               Fr{\'{e}}d{\'{e}}ric Allary and
               Gilles Moyse and
               Thomas Scialom and
               Edmundo{-}Pavel Soriano{-}Morales and
               Jacopo Staiano},
  title     = {Project {PIAF:} Building a Native French Question-Answering Dataset},
  booktitle = {{LREC}},
  pages     = {5481--5490},
  publisher = {European Language Resources Association},
  year      = {2020}
}

FQuAD

@article{dHoffschmidt2020FQuADFQ,
  title={FQuAD: French Question Answering Dataset},
  author={Martin d'Hoffschmidt and Maxime Vidal and Wacim Belblidia and Tom Brendl'e and Quentin Heinrich},
  journal={ArXiv},
  year={2020},
  volume={abs/2002.06071}
}

SQuAD-FR

 @MISC{kabbadj2018,
   author =       "Kabbadj, Ali",
   title =        "Something new in French Text Mining and Information Extraction (Universal Chatbot): Largest Q&A French training dataset (110 000+) ",
   editor =       "linkedin.com",
   month =        "November",
   year =         "2018",
   url =          "\url{https://www.linkedin.com/pulse/something-new-french-text-mining-information-chatbot-largest-kabbadj/}",
   note =         "[Online; posted 11-November-2018]",
 }

模型

CamemBERT

HF模型卡片：https://huggingface.co/camembert-base

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}

DPR

@misc{karpukhin2020dense,
    title={Dense Passage Retrieval for Open-Domain Question Answering},
    author={Vladimir Karpukhin and Barlas Oğuz and Sewon Min and Patrick Lewis and Ledell Wu and Sergey Edunov and Danqi Chen and Wen-tau Yih},
    year={2020},
    eprint={2004.04906},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}