M

Medcpt Article Encoder

由 ncbi 开发
MedCPT 是一个能够生成生物医学文本嵌入表示的模型,特别适用于语义搜索(密集检索)任务。
下载量 14.37k
发布时间 : 10/24/2023
模型介绍
内容详情
替代品

模型简介

MedCPT 包含两个编码器:查询编码器和文章编码器。本模型是文章编码器,用于计算生物医学文章(如PubMed标题和摘要)的嵌入表示。

模型特点

大规模预训练
通过2.55亿对PubMed搜索日志中的查询-文章对进行预训练
零样本性能优异
在多个零样本生物医学信息检索数据集上实现了最先进的性能
双编码器架构
包含独立的查询编码器和文章编码器,适用于不同场景
预计算嵌入可用
所有PubMed文章的预计算嵌入表示已公开提供

模型能力

生物医学文本嵌入生成
语义相似度计算
零样本信息检索
文本聚类

使用案例

信息检索
PubMed文章搜索
使用查询编码器和文章编码器进行查询到文章的搜索
在生物医学信息检索任务中表现优异
文本分析
文章聚类
使用文章编码器生成的文章嵌入进行相似文章聚类
查询分析
使用查询编码器生成的查询嵌入进行查询意图分析