polish-reranker-base-ranknet开源模型 - 助力波兰语文本信息检索任务排序

首页

Polish Reranker Base Ranknet

由 sdadas 开发

基于RankNet损失函数训练的波兰语文本排序模型，适用于信息检索任务

文本嵌入

Transformers

其他开源协议:Apache-2.0 #波兰语文本排序 #RankNet优化 #信息检索

下载量 332

发布时间 : 2/3/2024

模型简介

这是一个波兰语文本排序模型，采用RankNet损失函数训练，主要用于提升信息检索系统中查询与文档的相关性排序效果。

模型特点

RankNet训练方法

使用基于查询-文档对相对排序的RankNet损失函数，而非独立处理每个文档

大规模训练数据

训练集包含140万查询和1000万文档，涵盖多种领域数据

知识蒸馏

采用大型MT5-XXL教师模型进行知识蒸馏训练

模型能力

查询-文档相关性评分

搜索结果重新排序

多文档相关性比较

使用案例

信息检索系统

搜索引擎结果优化

对搜索引擎返回的文档进行重新排序，提升相关文档的排名

问答系统

从候选答案中选择与问题最相关的回答

医疗领域

医疗问答排序

对医疗问答系统中的回答进行相关性排序

🚀 波兰语重排器基础RankNet模型

这是一个波兰语文本排序模型，它基于140万个查询和1000万个文档组成的大规模文本对数据集，使用 RankNet损失进行训练。该模型在波兰语信息检索任务中具有重要价值，能够有效对文本进行排序。

✨ 主要特性

训练数据丰富：训练数据包含三部分，分别是波兰语MS MARCO训练集（80万个查询）、翻译成波兰语的ELI5数据集（超过50万个查询）以及波兰语医学问答集（约10万个查询）。
模型架构选择合理：采用 unicamp-dl/mt5-13b-mmarco-100k 作为教师模型，它是基于MT5 - XXL架构的大型多语言重排器；选择波兰语RoBERTa 作为学生模型。
独特的损失计算方法：与常用的逐点损失不同，RankNet方法根据查询和文档对计算损失，具体基于文档与查询的相关性排序的相对顺序计算损失。

📦 安装指南

文档未提及具体安装步骤，跳过该章节。

💻 使用示例

基础用法

你可以使用 sentence-transformers 库以如下方式使用该模型：

from sentence_transformers import CrossEncoder
import torch.nn

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model = CrossEncoder(
    "sdadas/polish-reranker-base-ranknet",
    default_activation_function=torch.nn.Identity(),
    max_length=512,
    device="cuda" if torch.cuda.is_available() else "cpu"
)
pairs = [[query, answer] for answer in answers]
results = model.predict(pairs)
print(results.tolist())

高级用法

该模型也可以使用Huggingface Transformers库以如下方式使用：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import numpy as np

query = "Jak dożyć 100 lat?"
answers = [
    "Trzeba zdrowo się odżywiać i uprawiać sport.",
    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]

model_name = "sdadas/polish-reranker-base-ranknet"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [f"{query}</s></s>{answer}" for answer in answers]
tokens = tokenizer(texts, padding="longest", max_length=512, truncation=True, return_tensors="pt")
output = model(**tokens)
results = output.logits.detach().numpy()
results = np.squeeze(results)
print(results.tolist())

📚 详细文档

评估结果

该模型在波兰语信息检索基准测试的重排器类别中实现了 NDCG@10 为 60.32 的成绩。详细结果请查看 PIRB排行榜。

引用信息

@article{dadas2024assessing,
  title={Assessing generalization capability of text ranking models in Polish}, 
  author={Sławomir Dadas and Małgorzata Grębowiec},
  year={2024},
  eprint={2402.14318},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

📄 许可证

本项目采用Apache 2.0许可证。

属性	详情
模型类型	波兰语文本排序模型
训练数据	1. 波兰语MS MARCO训练集（80万个查询）；2. 翻译成波兰语的ELI5数据集（超过50万个查询）；3. 波兰语医学问答集（约10万个查询）
教师模型	unicamp-dl/mt5-13b-mmarco-100k
学生模型	波兰语RoBERTa
损失计算方法	RankNet方法，基于查询和文档对计算损失