bi-encoder-russian-msmarco开源模型 - 用于俄语非对称语义搜索的免费工具

首页

Bi Encoder Russian Msmarco

由 DiTy 开发

基于DeepPavlov/rubert-base-cased预训练模型，使用MS-MARCO俄语段落排序数据集微调的sentence-transformers模型，用于俄语的非对称语义搜索。

文本嵌入

Transformers

其他开源协议:MIT #俄语语义搜索 #高精度检索 #医学文本分析

下载量 74.33k

发布时间 : 4/16/2024

模型简介

该模型将句子和段落映射到768维稠密向量空间，主要用于俄语的非对称语义搜索任务，能够高效计算句子相似度。

模型特点

高效语义搜索

能够快速计算俄语句子间的语义相似度，适用于大规模文档检索场景。

非对称搜索能力

支持查询句子与长段落之间的相似度比较，适用于问答系统等应用。

高精度检索

在mMARCO俄语测试集上达到0.9997的召回率@5，表现优异。

模型能力

俄语文本特征提取

句子相似度计算

语义搜索

文档检索

使用案例

信息检索

医疗问答系统

将用户医疗问题与知识库中的专业解答进行匹配

准确找到相关医学解释

法律文档检索

根据简短查询检索相关法律条款

快速定位相关法律条文

内容推荐

新闻文章推荐

根据用户阅读历史推荐相似新闻

提升用户阅读体验

🚀 DiTy/bi-encoder-russian-msmarco

DiTy/bi-encoder-russian-msmarco 是基于 DeepPavlov/rubert-base-cased 预训练模型，并使用 MS-MARCO Russian passage ranking dataset 进行微调的 sentence-transformers 模型。它能将句子和段落映射到 768 维的密集向量空间，可用于俄语的非对称语义搜索。

🚀 快速开始

本模型可通过 sentence-transformers 库或 HuggingFace Transformers 库使用，下面分别介绍两种使用方式。

📦 安装指南

若使用 sentence-transformers 库，可通过以下命令安装：

pip install -U sentence-transformers

💻 使用示例

[基础用法 - sentence-transformers 库]

from sentence_transformers import SentenceTransformer, util

sentences = [
    'какое состояние может определить тест с физической нагрузкой', 
    'Тест с физической нагрузкой разработан, чтобы выяснить, содержат ли одна или несколько коронарных артерий, питающих сердце, жировые отложения (бляшки), которые блокируют кровеносный сосуд на 70% или более. Для подтверждения результата часто требуется дополнительное тестирование. Результат испытаний.',
    'Тест направлен на то, чтобы выяснить, не получает ли какой-либо участок сердечной мышцы достаточный кровоток во время тренировки. Он похож на тест с физической нагрузкой, фармакологический или химический стресс-тест. Он также известен при стресс-тесте таллием, сканировании перфузии миокарда или радионуклидном тесте.'
]

model = SentenceTransformer('DiTy/bi-encoder-russian-msmarco')
embeddings = model.encode(sentences)
results = util.semantic_search(embeddings[0], embeddings[1:])[0]

print(f"Sentence similarity: {results}")
# `Sentence similarity: [{'corpus_id': 0, 'score': 0.8545001149177551}, {'corpus_id': 1, 'score': 0.023047829046845436}]`

[基础用法 - HuggingFace Transformers 库]

若不使用 sentence-transformers 库，可按如下方式使用模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = [
  'красный плоский лишай вызван стрессом',
  'В большинстве случаев причину появления красного плоского лишая невозможно. Это не вызвано стрессом, но иногда эмоциональный стресс усугубляет ситуацию. Известно, что это заболевание возникает после контакта с определенными химическими веществами, такими как те, которые используются для проявления цветных фотографий. У некоторых людей определенные лекарства вызывают красный плоский лишай. Эти препараты включают лекарства от высокого кровяного давления, болезней сердца, диабета, артрита и малярии, антибиотики, нестероидные противовоспалительные обезболивающие и т. Д.',
  'К сожалению для работодателей, в разных штатах страны есть несколько дел, по которым суды установили, что стресс, вызванный работой, может быть основанием для увольнения с работы, если стресс достигает уровня серьезного состояния здоровья, которое вызывает они не могут выполнять свою работу.',
]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('DiTy/bi-encoder-russian-msmarco')
model = AutoModel.from_pretrained('DiTy/bi-encoder-russian-msmarco')

# Tokenize sentences
encoded_input = tokenizer(sentences, max_length=512, padding='max_length', truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 技术细节

训练参数

本模型的训练参数如下：

DataLoader

使用 torch.utils.data.dataloader.DataLoader，长度为 1989041，参数如下：

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss

使用 sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，参数如下：

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

fit() 方法参数

{
    "epochs": 5,
    "evaluation_steps": 250000,
    "evaluator": "sentence_transformers.evaluation.InformationRetrievalEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 10000,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)