WikiMedical_sent_biobert_multi开源模型 - 支持8种语言的多语言医学文本嵌入

首页

Wikimedical Sent Biobert Multi

由 nuvocare 开发

基于sentence-transformers的多语言医学文本句子嵌入模型，支持8种语言

文本嵌入

Transformers

#多语言医学文本 #句子向量化 #跨语言语义搜索

下载量 14

发布时间 : 10/20/2023

模型简介

该模型能将医学相关句子和段落映射到768维向量空间，适用于跨语言的聚类或语义搜索任务。是WikiMedical_sent_biobert的多语言版本，基于xlm-roberta-base架构训练。

模型特点

多语言支持

支持英语、西班牙语、法语、德语等8种语言的医学文本处理

医学领域优化

专门针对维基医学内容优化的句子嵌入模型

知识蒸馏

采用教师-学生模型架构，从单语言BioBERT模型迁移知识到多语言模型

模型能力

句子向量化

跨语言语义搜索

文本聚类分析

医学文本相似度计算

使用案例

医疗信息检索

多语言医学文献检索

构建跨语言的医学文献搜索引擎

可实现对不同语言医学文献的语义相似度匹配

临床决策支持

多语言症状匹配

匹配不同语言描述的症状与疾病关联

🚀 WikiMedical_sent_biobert_multi

WikiMedical_sent_biobert_multi 是一个基于 sentence-transformers 的模型，它可以将句子和段落映射到 768 维的密集向量空间，可用于聚类或语义搜索等任务。该模型是 nuvocare/WikiMedical_sent_biobert 的多语言版本，在 nuvocare/Ted2020_en_es_fr_de_it_ca_pl_ru_nl 数据集上进行了训练。

🚀 快速开始

本部分将介绍如何使用 WikiMedical_sent_biobert_multi 模型，包括使用 sentence-transformers 库和 HuggingFace Transformers 库的方法。

✨ 主要特性

多语言支持：能够处理多种语言的句子和段落。
向量映射：将文本映射到 768 维的密集向量空间。
任务适用性：适用于聚类、语义搜索等任务。

📦 安装指南

若要使用该模型，你需要安装 sentence-transformers 库，可使用以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

在安装了 sentence-transformers 库后，使用该模型变得非常简单，示例代码如下：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('WikiMedical_sent_biobert_multi')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装 sentence-transformers 库，你可以按以下方式使用该模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('WikiMedical_sent_biobert_multi')
model = AutoModel.from_pretrained('WikiMedical_sent_biobert_multi')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

评估结果

该模型基于两种评估器 MSE 和 translation 进行跨语言评估，评估结果如下表所示：

语言	MSE (x100)	翻译（源到目标）	翻译（目标到源）
de	10.39	0.70	0.69
es	9.9	0.75	0.74
fr	10.00	0.72	0.73
it	10.29	0.69	0.69
nl	10.34	0.70	0.70
pl	11.39	0.58	0.58
ru	11.18	0.59	0.59

若要对该模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

训练详情

该模型使用以下参数进行训练：

数据加载器

torch.utils.data.dataloader.DataLoader，长度为 66833，参数如下：

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失函数

sentence_transformers.losses.MSELoss.MSELoss

fit() 方法的参数如下：

{
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)