M

Medcpt Query Encoder

由 ncbi 开发
MedCPT 是一个能够生成生物医学文本嵌入向量的模型,特别适用于语义搜索(密集检索)任务。
下载量 73.74k
发布时间 : 10/24/2023
模型介绍
内容详情
替代品

模型简介

MedCPT 包含查询编码器和文章编码器两个部分,能够计算短文本和文章的嵌入向量,用于生物医学领域的语义搜索、聚类等任务。

模型特点

大规模预训练
通过2.55亿对PubMed搜索日志中的查询-文章对进行预训练
零样本性能优异
在多个零样本生物医学信息检索数据集上实现了最先进的性能
双编码器架构
包含专门的查询编码器和文章编码器,分别优化不同类型文本的表示

模型能力

生物医学文本嵌入生成
语义搜索
文本聚类
查询-文章匹配

使用案例

信息检索
PubMed文献搜索
使用查询编码器生成搜索查询的嵌入,与预计算的文章嵌入进行匹配
提供更准确的生物医学文献检索结果
文本分析
查询聚类
使用查询编码器对生物医学查询进行表示和聚类分析
发现相似查询模式和用户意图
文章相似性分析
使用文章编码器计算文献之间的语义相似度
识别相关研究文献