开源t5-large-ssm-nq模型 - 免费部署助力闭卷问答，自然问题对答如流

首页

T5 Large Ssm Nq

由 google 开发

谷歌T5模型，专为闭卷问答任务设计，通过多阶段训练在自然问题上实现高性能。

问答系统英语开源协议:Apache-2.0 #闭卷问答 #知识密集型任务 #大规模预训练

下载量 330

发布时间 : 3/2/2022

模型简介

该模型是基于T5架构的文本到文本生成模型，专门针对闭卷问答任务进行优化。它通过C4、维基百科和自然问题数据集的多阶段训练，能够在不依赖外部知识源的情况下回答问题。

模型特点

多阶段训练

先在C4数据集上进行去噪预训练，然后在维基百科上进行显著跨度掩码训练，最后在自然问题数据集上微调

闭卷问答能力

无需依赖外部知识源即可回答问题，所有知识都编码在模型参数中

可扩展性

提供从small到xxl不同规模的模型版本，性能随模型规模提升

模型能力

闭卷问答

知识检索

文本生成

使用案例

问答系统

事实性问答

回答关于人物、地点、事件等事实性问题

在自然问题测试集上达到30.4的精确匹配率

教育

学习辅助

帮助学生快速获取知识性问题的答案

🚀 Google T5 闭卷问答模型

本模型基于 Google 的 T5，专为闭卷问答任务而设计。它利用预训练模型在无外部上下文或知识的情况下回答问题，展示了语言模型隐式存储和检索知识的能力。

🚀 快速开始

模型使用示例

本模型可按以下方式用于闭卷问答：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-large-ssm-nq")
t5_tok = AutoTokenizer.from_pretrained("google/t5-large-ssm-nq")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

# should give "December 26, 1892" => close, but not correct.

✨ 主要特性

多阶段训练：模型先在 C4 上基于 T5 的去噪目标进行预训练，接着在 Wikipedia 上使用 REALM 的显著跨度掩码目标进行额外预训练，最后在 Natural Questions (NQ) 上进行微调。
知识存储与检索：能够在无外部知识源的情况下，利用自然语言查询隐式存储和检索知识。
模型规模可扩展性：性能随模型规模的增大而提升。

📚 详细文档

数据集

预训练数据集：C4、Wikipedia
微调数据集：Natural Questions (NQ)

模型微调细节

模型在 Natural Questions (NQ) 的 100% 训练分割集上进行了 10k 步的微调。

其他社区检查点

可在此处查看其他社区检查点。

论文

论文标题：How Much Knowledge Can You Pack Into the Parameters of a Language Model?
作者：Adam Roberts, Colin Raffel, Noam Shazeer

自然问题测试集结果

模型 ID	链接	精确匹配率
T5-small	https://huggingface.co/google/t5-small-ssm-nq	25.5
T5-large	https://huggingface.co/google/t5-large-ssm-nq	30.4
T5-xl	https://huggingface.co/google/t5-xl-ssm-nq	35.6
T5-xxl	https://huggingface.co/google/t5-xxl-ssm-nq	37.9
T5-3b	https://huggingface.co/google/t5-3b-ssm-nq	33.2
T5-11b	https://huggingface.co/google/t5-11b-ssm-nq	36.6

摘要

近期研究发现，在非结构化文本上训练的神经语言模型可以使用自然语言查询隐式地存储和检索知识。在这篇简短的论文中，我们通过微调预训练模型来回答问题，且不访问任何外部上下文或知识，以此衡量这种方法的实际效用。我们表明，这种方法的性能随模型规模的增大而提升，并且在回答问题时，与从外部知识源显式检索答案的开放域系统具有竞争力。为了便于复现和未来研究，我们在 https://goo.gle/t5-cbqa 上发布了我们的代码和训练好的模型。

模型图像