reranker-MiniLM开源交叉编码器模型 - 免费用于文本重排序和语义搜索

首页

Reranker MiniLM L6 H384 Uncased Gooaq 5 Epoch 1995000

由 ayushexel 开发

这是一个从nreimers/MiniLM-L6-H384-uncased微调而来的交叉编码器模型，用于计算文本对的分数，适用于文本重排序和语义搜索任务。

文本嵌入

Safetensors

英语开源协议:Apache-2.0 #文本重排序 #问答匹配 #高精度语义评分

下载量 24

发布时间 : 3/31/2025

模型简介

该模型是一个交叉编码器，专门用于计算文本对的相似度分数，可应用于信息检索、问答系统等场景中的文本重排序任务。

模型特点

高效的文本重排序

能够准确计算文本对的相似度分数，有效提升检索系统的排序质量

基于MiniLM架构

采用轻量级的MiniLM架构，在保持性能的同时提高推理效率

多数据集验证

在多个数据集(gooaq、NanoMSMARCO等)上进行了验证，表现稳定

模型能力

文本相似度计算

语义搜索

问答系统重排序

信息检索优化

使用案例

信息检索

搜索引擎结果重排序

对搜索引擎返回的结果进行重新排序，提高最相关结果的排名

在gooaq开发集上达到0.5149的NDCG@10

问答系统

候选答案排序

对问答系统生成的多个候选答案进行相关性排序

在NanoNQ数据集上达到0.4065的NDCG@10

🚀 基于nreimers/MiniLM-L6-H384-uncased的交叉编码器

这是一个基于 nreimers/MiniLM-L6-H384-uncased 微调的交叉编码器模型，使用了 sentence-transformers 库。它可以计算文本对的分数，可用于文本重排序和语义搜索。

🚀 快速开始

直接使用（Sentence Transformers）

首先安装 Sentence Transformers 库：

pip install -U sentence-transformers

然后你可以加载这个模型并进行推理。

from sentence_transformers import CrossEncoder

# 从 🤗 Hub 下载
model = CrossEncoder("ayushexel/reranker-MiniLM-L6-H384-uncased-gooaq-5-epoch-1995000")
# 获取文本对的分数
pairs = [
    ['2020年民主党总统辩论何时举行？', '主要候选人提名将在2020年民主党全国代表大会上正式确定，该大会暂定于2020年8月17日至20日在威斯康星州密尔沃基举行。'],
    ['2020年民主党总统辩论何时举行？', '主要候选人截至2020年6月8日，前副总统乔·拜登通过积累足够的代表票数，成为了总统候选人的推定人选。'],
    ['2020年民主党总统辩论何时举行？', '2019年3月5日，布隆伯格宣布他不会参加2020年总统竞选；相反，他鼓励民主党“提名一位最有能力击败唐纳德·特朗普的民主党人”。'],
    ['2020年民主党总统辩论何时举行？', '基于2010年人口普查数据的2020年选举地图。2020年美国总统大选定于2020年11月3日星期二举行。这将是第59届总统大选。'],
    ['2020年民主党总统辩论何时举行？', '共有29位主要民主党候选人。其中，23位候选人参加了至少一场辩论。只有乔·拜登和伯尼·桑德斯参加了所有辩论；皮特·布蒂吉格、艾米·克洛布查尔和伊丽莎白·沃伦参加了除一场之外的所有辩论。'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# 或者根据与单个文本的相似度对不同文本进行排序
ranks = model.rank(
    '2020年民主党总统辩论何时举行？',
    [
        '主要候选人提名将在2020年民主党全国代表大会上正式确定，该大会暂定于2020年8月17日至20日在威斯康星州密尔沃基举行。',
        '主要候选人截至2020年6月8日，前副总统乔·拜登通过积累足够的代表票数，成为了总统候选人的推定人选。',
        '2019年3月5日，布隆伯格宣布他不会参加2020年总统竞选；相反，他鼓励民主党“提名一位最有能力击败唐纳德·特朗普的民主党人”。',
        '基于2010年人口普查数据的2020年选举地图。2020年美国总统大选定于2020年11月3日星期二举行。这将是第59届总统大选。',
        '共有29位主要民主党候选人。其中，23位候选人参加了至少一场辩论。只有乔·拜登和伯尼·桑德斯参加了所有辩论；皮特·布蒂吉格、艾米·克洛布查尔和伊丽莎白·沃伦参加了除一场之外的所有辩论。',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

✨ 主要特性

基于 nreimers/MiniLM-L6-H384-uncased 模型微调，可用于文本重排序和语义搜索。
计算文本对的分数，输出单个标签。

📦 模型详情

模型描述

属性	详情
模型类型	交叉编码器
基础模型	nreimers/MiniLM-L6-H384-uncased
最大序列长度	512个词元
输出标签数量	1个标签
语言	英语
许可证	Apache-2.0

模型来源

📚 评估

指标

交叉编码器重排序

数据集：gooaq-dev

使用 CrossEncoderRerankingEvaluator 进行评估，参数如下：

{
    "at_k": 10,
    "always_rerank_positives": false
}

指标	值
map	0.4719 (+0.2021)
mrr@10	0.4714 (+0.2125)
ndcg@10	0.5149 (+0.2052)

交叉编码器重排序

数据集：NanoMSMARCO_R100、NanoNFCorpus_R100 和 NanoNQ_R100

使用 CrossEncoderRerankingEvaluator 进行评估，参数如下：

{
    "at_k": 10,
    "always_rerank_positives": true
}

指标	NanoMSMARCO_R100	NanoNFCorpus_R100	NanoNQ_R100
map	0.3405 (-0.1491)	0.3375 (+0.0765)	0.3251 (-0.0945)
mrr@10	0.3251 (-0.1524)	0.5157 (+0.0159)	0.3406 (-0.0861)
ndcg@10	0.4090 (-0.1314)	0.3596 (+0.0346)	0.4065 (-0.0942)

交叉编码器 Nano BEIR

数据集：NanoBEIR_R100_mean

使用 CrossEncoderNanoBEIREvaluator 进行评估，参数如下：

{
    "dataset_names": [
        "msmarco",
        "nfcorpus",
        "nq"
    ],
    "rerank_k": 100,
    "at_k": 10,
    "always_rerank_positives": true
}

指标	值
map	0.3344 (-0.0557)
mrr@10	0.3938 (-0.0742)
ndcg@10	0.3917 (-0.0637)

🔧 训练详情

训练数据集

未命名数据集

大小：11,456,701 个训练样本
列：question、answer 和 label

基于前 1000 个样本的近似统计信息：

	问题	答案	标签
类型	字符串	字符串	整数
详情	最小：18 个字符平均：43.15 个字符最大：83 个字符	最小：59 个字符平均：257.34 个字符最大：388 个字符	0：~82.40% 1：~17.60%

样本：

问题	答案	标签
`2020年民主党总统辩论何时举行？`	`主要候选人提名将在2020年民主党全国代表大会上正式确定，该大会暂定于2020年8月17日至20日在威斯康星州密尔沃基举行。`	`1`
`2020年民主党总统辩论何时举行？`	`主要候选人截至2020年6月8日，前副总统乔·拜登通过积累足够的代表票数，成为了总统候选人的推定人选。`	`0`
`2020年民主党总统辩论何时举行？`	`2019年3月5日，布隆伯格宣布他不会参加2020年总统竞选；相反，他鼓励民主党“提名一位最有能力击败唐纳德·特朗普的民主党人”。`	`0`

损失函数：BinaryCrossEntropyLoss，参数如下：

{
    "activation_fn": "torch.nn.modules.linear.Identity",
    "pos_weight": 5
}

训练超参数

非默认超参数

eval_strategy：按步数评估
per_device_train_batch_size：256
per_device_eval_batch_size：256
learning_rate：2e-05
num_train_epochs：5
warmup_ratio：0.1
seed：12
bf16：True
dataloader_num_workers：12
load_best_model_at_end：True

框架版本

Python：3.11.0
Sentence Transformers：4.0.1
Transformers：4.50.3
PyTorch：2.6.0+cu124
Accelerate：1.5.2
Datasets：3.5.0
Tokenizers：0.21.1

📄 许可证

本模型使用 Apache-2.0 许可证。

📖 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}