dpr-question_encoder-multiset-base
多数据集问题编码器
目录
模型详情
模型描述: 密集段落检索(DPR)是一套用于开放领域问答研究的工具和模型。dpr-question_encoder-multiset-base
是使用自然问题(NQ)数据集、TriviaQA、网页问题(WQ)和精选TREC(TREC)训练的问题编码器。
快速使用指南
使用以下代码快速开始使用该模型:
from transformers import DPRQuestionEncoder, DPRQuestionEncoderTokenizer
tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-multiset-base")
model = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-multiset-base")
input_ids = tokenizer("你好,我的狗狗可爱吗?", return_tensors="pt")["input_ids"]
embeddings = model(input_ids).pooler_output
用途
直接用途
dpr-question_encoder-multiset-base
、dpr-ctx_encoder-multiset-base
和dpr-reader-multiset-base
可用于开放领域问答任务。
滥用与超出范围用途
该模型不应被用于故意制造敌对或疏远的环境。此外,DPR模型集并非旨在生成关于人物或事件的真实表述,因此用于生成此类内容超出了本模型的能力范围。
风险、局限性与偏差
内容警告: 本节可能包含令人不安、冒犯性内容,并可能传播历史和当前存在的刻板印象。
大量研究已探讨了语言模型中的偏见和公平性问题(参见Sheng等,2021和Bender等,2021)。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
训练
训练数据
该模型使用以下数据集训练:
训练过程
训练过程在相关论文中描述:
给定M个文本段落集合,我们的密集段落检索器(DPR)目标是在低维连续空间中索引所有段落,以便在运行时能高效检索与输入问题最相关的k个段落。
我们的密集段落检索器(DPR)使用密集编码器EP(·)将任意文本段落映射到d维实值向量,并为所有M个段落建立索引用于检索。运行时,DPR应用不同的编码器EQ(·)将输入问题映射为d维向量,并检索向量最接近问题向量的k个段落。
作者报告使用两个独立的BERT网络(基础版,未区分大小写)作为编码器,并在推理时使用FAISS进行段落编码和索引。详见论文中关于训练、编码器、推理、正负段落及批次内负样本的细节。
评估结果
以下评估信息摘自相关论文。
测试数据、因素与指标
开发者在五个QA数据集上报告了模型性能,使用top-k准确率(k ∈ {20, 100})。数据集包括NQ、TriviaQA、网页问题(WQ)、精选TREC(TREC)和SQuAD v1.1。
结果
|
Top 20 |
|
|
|
|
Top 100 |
|
|
|
|
|
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
NQ |
TriviaQA |
WQ |
TREC |
SQuAD |
|
79.4 |
78.8 |
75.0 |
89.1 |
51.6 |
86.0 |
84.7 |
82.9 |
93.9 |
67.6 |
环境影响
碳排放量可使用Lacoste等(2019)提出的机器学习影响计算器估算。基于相关论文提供硬件类型:
- 硬件类型: 8块32GB GPU
- 使用时长: 未知
- 云服务商: 未知
- 计算区域: 未知
- 碳排放量: 未知
技术规格
详见相关论文中关于模型架构、目标函数、计算基础设施和训练细节的说明。
引用信息
@inproceedings{karpukhin-etal-2020-dense,
title = "Dense Passage Retrieval for Open-Domain Question Answering",
author = "Karpukhin, Vladimir and Oguz, Barlas and Min, Sewon and Lewis, Patrick and Wu, Ledell and Edunov, Sergey and Chen, Danqi and Yih, Wen-tau",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.emnlp-main.550",
doi = "10.18653/v1/2020.emnlp-main.550",
pages = "6769--6781",
}
模型卡片作者
本模型卡片由Hugging Face团队撰写。