cross-encoder-russian-msmarco开源模型 - 免费部署助力俄语信息检索任务

首页

Cross Encoder Russian Msmarco

由 DiTy 开发

基于DeepPavlov/rubert-base-cased预训练模型并通过MS-MARCO俄语段落排序数据集微调的sentence-transformers模型，用于俄语信息检索任务。

文本嵌入

Transformers

其他开源协议:MIT #俄语信息检索 #段落重排序 #BERT微调

下载量 116.28k

发布时间 : 4/19/2024

模型简介

该模型是一个俄语交叉编码器，专门用于信息检索任务。它可以对查询和文档进行联合编码，计算相关性分数，适用于检索结果的重排序。

模型特点

俄语优化

基于俄语预训练模型DeepPavlov/rubert-base-cased微调，专门针对俄语信息检索任务优化

交叉编码架构

采用交叉编码器架构，能够同时处理查询和文档，计算更精确的相关性分数

MS-MARCO微调

使用MS-MARCO俄语段落排序数据集进行微调，优化了检索排序性能

模型能力

俄语文本理解

查询-文档相关性评分

检索结果重排序

使用案例

信息检索

搜索引擎结果重排序

对初步检索结果进行重新排序，提高相关文档的排名

能够有效提升检索结果的相关性

问答系统

从候选答案中选择最相关的结果

🚀 DiTy/cross-encoder-russian-msmarco

这是一个基于 sentence-transformers 的模型，它以预训练的 DeepPavlov/rubert-base-cased 为基础，并使用 MS-MARCO 俄语段落排序数据集进行了微调。该模型可用于俄语信息检索：给定一个查询，将查询与所有可能的段落（例如通过 ElasticSearch 检索到的段落）进行编码，然后按降序对段落进行排序。更多详细信息请参阅 SBERT.net 检索与重排序。

🚀 快速开始

安装依赖

若已安装 sentence-transformers，使用该模型会变得很简单：

pip install -U sentence-transformers

🔧 技术细节

属性	详情
模型类型	基于预训练的 DeepPavlov/rubert-base-cased 微调的 sentence-transformers 模型
训练数据	MS-MARCO 俄语段落排序数据集（unicamp-dl/mmarco）
基础模型	DeepPavlov/rubert-base-cased
许可证	MIT

💻 使用示例

基础用法（Sentence-Transformers）

from sentence_transformers import CrossEncoder

reranker_model = CrossEncoder('DiTy/cross-encoder-russian-msmarco', max_length=512, device='cuda')

query = ["как часто нужно ходить к стоматологу?"]
documents = [
    "Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.",
    "Основная причина заключается в истончении поверхностного слоя зуба — эмали, которая защищает зуб от механических, химических и температурных воздействий. Под эмалью расположен дентин, который более мягкий по своей структуре и пронизан множеством канальцев. При повреждении эмали происходит оголение дентинных канальцев. Раздражение с них начинает передаваться на нервные окончания в зубе и возникают болевые ощущения. Чаще всего дентин оголяется в придесневой области зубов, поскольку эмаль там наиболее тонкая и стирается быстрее.",
    "Стоматолог, также известный как стоматолог-хирург, является медицинским работником, который специализируется на стоматологии, отрасли медицины, специализирующейся на зубах, деснах и полости рта.",
    "Дядя Женя работает врачем стоматологом",
    "Плоды малины употребляют как свежими, так и замороженными или используют для приготовления варенья, желе, мармелада, соков, а также ягодного пюре. Малиновые вина, наливки, настойки, ликёры обладают высокими вкусовыми качествами.",
]

predict_result = reranker_model.predict([[query[0], documents[0]]])
print(predict_result)
# `array([0.88126713], dtype=float32)`

rank_result = reranker_model.rank(query[0], documents)
print(rank_result)
# `[{'corpus_id': 0, 'score': 0.88126713},
#  {'corpus_id': 2, 'score': 0.001042091},
#  {'corpus_id': 3, 'score': 0.0010417715},
#  {'corpus_id': 1, 'score': 0.0010344835},
#  {'corpus_id': 4, 'score': 0.0010244923}]`

高级用法（HuggingFace Transformers）

若未安装 sentence-transformers，可以按以下方式使用该模型：首先，将输入数据传入变压器模型，然后从模型中获取对数几率。

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained('DiTy/cross-encoder-russian-msmarco')
tokenizer = AutoTokenizer.from_pretrained('DiTy/cross-encoder-russian-msmarco')

features = tokenizer(["как часто нужно ходить к стоматологу?", "как часто нужно ходить к стоматологу?"], ["Минимальный обязательный срок посещения зубного врача – раз в год, но специалисты рекомендуют делать это чаще – раз в полгода, а ещё лучше – раз в квартал. При таком сроке легко отследить любые начинающиеся проблемы и исправить их сразу же.", "Дядя Женя работает врачем стоматологом"], padding=True, truncation=True, return_tensors='pt')
 
model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)
# `tensor([[ 1.6871],
#        [-6.8700]])`