O

Opensearch Neural Sparse Encoding V1

由 opensearch-project 开发
OpenSearch神经稀疏编码模型v1,用于将查询和文档编码为30522维稀疏向量,实现高效的搜索相关性和检索
下载量 10.20k
发布时间 : 3/7/2024

模型简介

这是一个学习型稀疏检索模型,可将查询和文档编码为30522维的稀疏向量,在搜索相关性和检索效率方面表现出色。模型在MS MARCO数据集上进行训练,支持使用Lucene倒排索引进行学习型稀疏检索。

模型特点

高效稀疏编码
将查询和文档编码为30522维的稀疏向量,非零维度索引表示词汇表中对应的标记,权重表示标记的重要性
优秀的相关性表现
在BEIR基准测试的多个数据集上表现出色,平均NDCG@10达到0.524
OpenSearch集成
专为OpenSearch集群设计,支持使用Lucene倒排索引进行高效检索
零样本性能
在未见过的数据集上也能表现良好,无需微调即可使用

模型能力

文本稀疏编码
信息检索
查询-文档匹配
零样本迁移学习

使用案例

搜索引擎
文档检索
在大型文档集合中高效检索相关文档
在BEIR基准测试中平均NDCG@10达到0.524
问答系统
匹配用户问题与候选答案
在NQ数据集上NDCG@10达到0.553
专业领域搜索
科学文献检索
在科学文献数据库中检索相关论文
在SciFact数据集上NDCG@10达到0.723
医疗信息检索
检索医疗相关文档和信息
在TrecCovid数据集上NDCG@10达到0.771
AIbase
智启未来,您的人工智能解决方案智库
简体中文