BioLORD-2023-C开源模型 - 免费生成生物医学与临床文本有价值表示

首页

Biolord 2023 C

由 FremyCompany 开发

BioLORD-2023-C是一种基于BioLORD训练的句子转换器模型，专注于生成生物医学和临床文本的有意义表示。

文本嵌入英语开源协议:其他 #生物医学语义相似度 #临床概念嵌入 #本体知识增强

下载量 188.08k

发布时间 : 2/12/2024

模型简介

该模型通过使用定义和从生物医学本体知识图谱中提取的简短描述来锚定概念表示，生成更符合本体层次结构的语义概念表示。适用于临床句子和生物医学概念的文本相似度任务。

模型特点

语义概念表示

通过使用定义和知识图谱描述锚定概念表示，生成更符合本体层次结构的语义表示。

多阶段训练

采用三阶段训练策略，包括对比学习阶段和自蒸馏阶段，优化模型性能。

生物医学优化

专门针对生物医学和临床领域进行优化，处理电子健康记录和临床笔记等医学文档效果更佳。

模型能力

句子相似度计算

生物医学文本特征提取

临床文本嵌入生成

使用案例

医疗信息处理

临床笔记分析

分析电子健康记录中的临床笔记，提取关键信息。

生成有意义的文本表示，便于后续分析和处理。

生物医学概念匹配

匹配不同表达方式的生物医学概念，如'猫抓病'和'巴尔通体病'。

准确识别语义相似的概念。

🚀 FremyCompany/BioLORD-2023-C

本模型旨在解决临床句子和生物医学概念的有意义表示问题，通过新的预训练策略BioLORD进行训练，能在临床句子和生物医学概念的文本相似度任务上达到新的最优效果。

🚀 快速开始

本模型是一个基于sentence-transformers的模型，它可以将句子和段落映射到768维的密集向量空间，可用于聚类或语义搜索等任务。该模型针对生物医学领域进行了微调，在处理医学文档（如电子健康记录或临床笔记）时会更有用。

安装依赖

pip install -U sentence-transformers

代码示例

from sentence_transformers import SentenceTransformer
sentences = ["Cat scratch injury", "Cat scratch disease", "Bartonellosis"]

model = SentenceTransformer('FremyCompany/BioLORD-2023-C')
embeddings = model.encode(sentences)
print(embeddings)

✨ 主要特性

创新预训练策略：使用BioLORD预训练策略，利用定义和多关系知识图谱中的简短描述来构建概念表示，克服了传统方法可能产生非语义表示的问题。
语义匹配度高：生成的概念表示更具语义性，能更好地匹配本体的层次结构。
领域针对性强：针对生物医学领域进行微调，在处理医学文档时表现更优。

📦 安装指南

若要使用此模型，需安装sentence-transformers库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["Cat scratch injury", "Cat scratch disease", "Bartonellosis"]

model = SentenceTransformer('FremyCompany/BioLORD-2023-C')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

若不使用sentence-transformers库，可按以下方式使用模型：

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ["Cat scratch injury", "Cat scratch disease", "Bartonellosis"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('FremyCompany/BioLORD-2023-C')
model = AutoModel.from_pretrained('FremyCompany/BioLORD-2023-C')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

模型背景

当前最先进的方法通过最大化指代同一概念的名称表示的相似性，并通过对比学习防止崩溃。但由于生物医学名称并非总是自解释的，有时会导致非语义表示。BioLORD通过使用定义以及从由生物医学本体组成的多关系知识图谱中提取的简短描述来构建其概念表示，克服了这一问题。

训练策略

三阶段概述

image/png

对比阶段详情

image/png

自蒸馏阶段详情

image/png

引用信息

本模型伴随论文BioLORD - 2023: Learning Ontological Representations from Definitions。使用此模型时，请按以下方式引用原文：

@article{remy-etal-2023-biolord,
    author = {Remy, François and Demuynck, Kris and Demeester, Thomas},
    title = "{BioLORD-2023: semantic textual representations fusing large language models and clinical knowledge graph insights}",
    journal = {Journal of the American Medical Informatics Association},
    pages = {ocae029},
    year = {2024},
    month = {02},
    issn = {1527-974X},
    doi = {10.1093/jamia/ocae029},
    url = {https://doi.org/10.1093/jamia/ocae029},
    eprint = {https://academic.oup.com/jamia/advance-article-pdf/doi/10.1093/jamia/ocae029/56772025/ocae029.pdf},
}