标签:
Re2G中的NQ问题编码器模型卡
模型详情
RAG、Multi-DPR和KGI的方法是通过训练一个神经信息检索(IR)组件,并通过其对生成正确输出的影响进行端到端的进一步训练。
训练、评估与推理
训练、评估和推理的代码可在我们的GitHub的re2g分支中找到。
使用方法
使用该模型的最佳方式是适配dpr_apply.py。
引用
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: 检索、重排序、生成",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "北美计算语言学协会2022年会会议录:人类语言技术",
month = jul,
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "如GPT-3和T5所示,随着参数空间的不断扩大,Transformer的能力也在增长。然而,对于需要大量知识的任务,非参数化内存允许模型在计算成本和GPU内存需求呈次线性增长的情况下显著扩展。最近如RAG和REALM等模型已将检索引入条件生成中。这些模型结合了从段落语料库中进行的神经初始检索。我们在这一研究方向的基础上,提出了Re2G,它将神经初始检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还允许合并来自得分不可比较来源的检索结果,实现了BM25和神经初始检索的集成。为了端到端训练我们的系统,我们引入了一种新颖的知识蒸馏变体,仅使用目标序列输出的真实情况来训练初始检索、重排序器和生成器。我们在四个多样化任务中取得了显著提升:零样本槽填充、问答、事实核查和对话,在KILT排行榜上相对于之前的最先进技术取得了9%到34%的相对提升。我们将代码开源。",
}
模型描述
模型创建者在相关论文中指出:
如GPT-3和T5所示,随着参数空间的不断扩大,Transformer的能力也在增长。然而,对于需要大量知识的任务,非参数化内存允许模型在计算成本和GPU内存需求呈次线性增长的情况下显著扩展。最近如RAG和REALM等模型已将检索引入条件生成中。这些模型结合了从段落语料库中进行的神经初始检索。我们在这一研究方向的基础上,提出了Re2G,它将神经初始检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还允许合并来自得分不可比较来源的检索结果,实现了BM25和神经初始检索的集成。为了端到端训练我们的系统,我们引入了一种新颖的知识蒸馏变体,仅使用目标序列输出的真实情况来训练初始检索、重排序器和生成器。我们在四个多样化任务中取得了显著提升:零样本槽填充、问答、事实核查和对话,在KILT排行榜上相对于之前的最先进技术取得了9%到34%的相对提升。我们将代码开源。
用途
直接使用
该模型可用于将问题编码为向量,作为查询用于近似最近邻索引的任务。它必须与一个上下文编码器结合使用,该编码器将段落编码为向量并建立索引。
引用
BibTeX:
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: 检索、重排序、生成",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "北美计算语言学协会2022年会会议录:人类语言技术",
month = jul,
year = "2022",
address = "美国西雅图",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "如GPT-3和T5所示,随着参数空间的不断扩大,Transformer的能力也在增长。然而,对于需要大量知识的任务,非参数化内存允许模型在计算成本和GPU内存需求呈次线性增长的情况下显著扩展。最近如RAG和REALM等模型已将检索引入条件生成中。这些模型结合了从段落语料库中进行的神经初始检索。我们在这一研究方向的基础上,提出了Re2G,它将神经初始检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还允许合并来自得分不可比较来源的检索结果,实现了BM25和神经初始检索的集成。为了端到端训练我们的系统,我们引入了一种新颖的知识蒸馏变体,仅使用目标序列输出的真实情况来训练初始检索、重排序器和生成器。我们在四个多样化任务中取得了显著提升:零样本槽填充、问答、事实核查和对话,在KILT排行榜上相对于之前的最先进技术取得了9%到34%的相对提升。我们将代码开源。",
}