M

Msmarco T5 Base V1

由 doc2query 开发
基于T5的doc2query模型,用于文档扩展和训练数据生成
下载量 112
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于T5架构,主要用于文档扩展和领域专用训练数据生成。它能够为输入文本生成多个相关查询,提升检索系统的性能。

模型特点

文档扩展
可为段落生成20-40个查询,将段落与生成查询共同索引,提升检索效果
训练数据生成
可用于生成嵌入模型的训练数据,为未标注文本生成(查询,文本)对
语义鸿沟弥补
通过生成查询包含同义词,弥补词汇检索的语义鸿沟

模型能力

文本生成
查询生成
文档扩展

使用案例

信息检索
搜索引擎优化
将生成查询与原始文档共同索引,提升BM25检索效果
在BEIR基准测试中验证了其作为强大搜索引擎的效果
机器学习
训练数据生成
为未标注文本生成(查询,文本)对,用于训练稠密嵌入模型