Re2g Qry Encoder Fever
R
Re2g Qry Encoder Fever
由 ibm-research 开发
Re2G是一个结合神经初始检索和重排序的生成模型,用于知识密集型任务。该问题编码器是Re2G系统的组成部分,用于将问题编码为向量以进行检索。
下载量 17
发布时间 : 8/1/2022
模型简介
该模型是Re2G系统的查询编码组件,基于DPR架构,用于将自然语言问题编码为向量表示,以便与段落编码器配合进行信息检索和重排序。
模型特点
端到端训练
通过知识蒸馏方法实现初始检索、重排序和生成器的联合训练
多源检索集成
能够整合BM25和神经初始检索等不同来源的检索结果
知识密集型任务优化
专门针对需要大量知识的任务设计,如问答、事实核查等
模型能力
问题编码
信息检索
检索结果重排序
使用案例
知识密集型任务
零样本槽填充
在没有特定训练数据的情况下填充结构化槽位
相对之前SOTA提升9%-34%
事实核查
验证声明的真实性
问答系统
回答需要外部知识的复杂问题
🚀 Re2G中FEVER问题编码器的模型卡片
本模型用于将问题编码为向量,可作为近似最近邻索引的查询。它结合上下文编码器,能在信息检索等任务中发挥重要作用。
📚 详细文档
模型详情
RAG、Multi - DPR和KGI的方法是训练一个神经信息检索(IR)组件,并通过其在生成正确输出中的影响进行端到端训练。
训练、评估和推理
训练、评估和推理的代码可在我们的GitHub仓库的re2g分支中找到。
使用方法
使用该模型的最佳方式是调整dpr_apply.py。
引用信息
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: Retrieve, Rerank, Generate",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "As demonstrated by GPT-3 and T5, transformers grow in capability as parameter spaces become larger and larger. However, for tasks that require a large amount of knowledge, non-parametric memory allows models to grow dramatically with a sub-linear increase in computational cost and GPU memory requirements. Recent models such as RAG and REALM have introduced retrieval into conditional generation. These models incorporate neural initial retrieval from a corpus of passages. We build on this line of research, proposing Re2G, which combines both neural initial retrieval and reranking into a BART-based sequence-to-sequence generation. Our reranking approach also permits merging retrieval results from sources with incomparable scores, enabling an ensemble of BM25 and neural initial retrieval. To train our system end-to-end, we introduce a novel variation of knowledge distillation to train the initial retrieval, reranker and generation using only ground truth on the target sequence output. We find large gains in four diverse tasks: zero-shot slot filling, question answering, fact checking and dialog, with relative gains of 9{\%} to 34{\%} over the previous state-of-the-art on the KILT leaderboard. We make our code available as open source.",
}
模型描述
模型创建者在相关论文中指出:
正如GPT - 3和T5所展示的,随着参数空间越来越大,Transformer的能力也在不断增强。然而,对于需要大量知识的任务,非参数内存允许模型以亚线性的计算成本和GPU内存需求大幅增长。最近的模型如RAG和REALM已将检索引入到条件生成中。这些模型包含了从段落语料库进行的神经初始检索。我们在此研究基础上,提出了Re2G,它将神经初始检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还允许合并来自分数不可比来源的检索结果,从而实现BM25和神经初始检索的集成。为了端到端地训练我们的系统,我们引入了一种新颖的知识蒸馏变体,仅使用目标序列输出的真实值来训练初始检索、重排序器和生成器。我们在四个不同的任务中取得了显著的收益:零样本插槽填充、问答、事实核查和对话,在KILT排行榜上相对于先前的最先进技术有9%到34%的相对提升。我们将代码开源。
属性 | 详情 |
---|---|
开发者 | IBM |
共享者 | IBM |
模型类型 | 查询/段落重排序器 |
语言(NLP) | 英语 |
许可证 | Apache 2.0 |
基础模型 | dpr - question_encoder - multiset - base |
更多信息资源 | GitHub仓库、相关论文 |
📖 使用场景
直接使用
该模型可用于将问题编码为向量,作为近似最近邻索引的查询。它必须与将段落编码为向量并进行索引的上下文编码器结合使用。
📄 许可证
本模型采用Apache 2.0许可证。
📜 引用
BibTeX格式:
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: Retrieve, Rerank, Generate",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "As demonstrated by GPT-3 and T5, transformers grow in capability as parameter spaces become larger and larger. However, for tasks that require a large amount of knowledge, non-parametric memory allows models to grow dramatically with a sub-linear increase in computational cost and GPU memory requirements. Recent models such as RAG and REALM have introduced retrieval into conditional generation. These models incorporate neural initial retrieval from a corpus of passages. We build on this line of research, proposing Re2G, which combines both neural initial retrieval and reranking into a BART-based sequence-to-sequence generation. Our reranking approach also permits merging retrieval results from sources with incomparable scores, enabling an ensemble of BM25 and neural initial retrieval. To train our system end-to-end, we introduce a novel variation of knowledge distillation to train the initial retrieval, reranker and generation using only ground truth on the target sequence output. We find large gains in four diverse tasks: zero-shot slot filling, question answering, fact checking and dialog, with relative gains of 9{\%} to 34{\%} over the previous state-of-the-art on the KILT leaderboard. We make our code available as open source.",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文