language: zh
license: cc-by-nc-4.0
tags:
- dpr
datasets:
- nq_open
inference: false
dpr-question_encoder-single-nq-base
目录
模型详情
模型描述: 密集段落检索(DPR)是一套用于开放领域问答研究的先进工具和模型。dpr-question_encoder-single-nq-base
是使用自然问题(NQ)数据集(Lee等人,2019;Kwiatkowski等人,2019)训练的问题编码器。
快速使用指南
使用以下代码快速体验模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
input_ids = tokenizer("你好,我的狗狗可爱吗?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
用途
直接用途
dpr-question_encoder-single-nq-base
、dpr-ctx_encoder-single-nq-base
和dpr-reader-single-nq-base
可用于开放领域问答任务。
误用与超范围使用
该模型不应被用于故意制造敌对或疏远人群的环境。此外,DPR模型系列并非旨在生成关于人物或事件的真实表述,因此用于生成此类内容超出了该模型的能力范围。
风险、局限性与偏见
内容警告:本节可能包含令人不适、冒犯性内容,并可能传播历史及当前偏见。
大量研究探讨了语言模型中的偏见与公平性问题(参见Sheng等人,2021和Bender等人,2021)。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
训练
训练数据
本模型使用自然问题(NQ)数据集(Lee等人,2019;Kwiatkowski等人,2019)训练。开发者说明:
该数据集专为端到端问答设计。问题来自真实谷歌搜索查询,答案由标注者在维基百科文章中标注得出。
训练流程
训练流程详见相关论文:
给定M个文本段落集合,我们的密集段落检索器(DPR)目标是将所有段落索引到低维连续空间,以便在运行时高效检索与输入问题最相关的k个段落。
DPR使用密集编码器EP(·)将文本段落映射为d维实值向量,并为所有待检索段落建立索引。运行时,DPR应用不同编码器EQ(·)将问题映射为d维向量,并检索向量最接近问题的k个段落。
开发者报告采用两个独立BERT网络(base版,无大小写)作为编码器,推理阶段使用FAISS进行段落编码与索引。详见论文中关于训练流程、正负段落采样及批次内负样本的说明。
评估结果
以下评估信息摘自相关论文。
测试数据与指标
开发者在五个QA数据集上报告了模型top-k准确率(k∈{20,100}),包括NQ、TriviaQA、WebQuestions(WQ)、CuratedTREC(TREC)和SQuAD v1.1。
结果
|
Top 20 |
|
|
|
|
Top 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
78.4 |
79.4 |
73.2 |
79.8 |
63.2 |
85.4 |
85.0 |
81.4 |
89.1 |
77.2 |
环境影响
碳排放估算可参考Lacoste等人(2019)提出的机器学习影响计算器。基于相关论文提供硬件信息:
- 硬件类型: 8块32GB GPU
- 使用时长: 未知
- 云服务商: 未知
- 计算区域: 未知
- 碳排放量: 未知
技术规格
详见相关论文中关于模型架构、目标函数、计算基础设施及训练细节的说明。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
本模型卡片由Hugging Face团队撰写。