这是一个从ModernBERT-base微调而来的交叉编码器模型,用于计算文本对的分数,适用于文本重排序和语义搜索任务。
下载量 30
发布时间 : 3/31/2025
模型介绍
内容详情
替代品
模型简介
该模型基于answerdotai/ModernBERT-base微调,专门用于文本对评分,支持语义搜索和文本重排序。
模型特点
长文本支持
支持最大8192个标记的序列长度,适合处理长文本。
高效重排序
专为文本重排序任务优化,能够有效提升搜索结果的相关性。
多数据集验证
在多个数据集上进行了验证,包括gooaq-dev、NanoMSMARCO等。
模型能力
文本对评分
语义搜索
文本重排序
使用案例
信息检索
问答系统重排序
在问答系统中对候选答案进行重排序,提升最相关答案的排名。
在gooaq-dev数据集上达到0.4829的平均准确率。
文档检索
对检索到的文档进行相关性重排序,提升用户体验。
在NanoMSMARCO数据集上达到0.4301的平均准确率。
language:
- en license: apache-2.0 tags:
- sentence-transformers
- cross-encoder
- generated_from_trainer
- dataset_size:11456701
- loss:BinaryCrossEntropyLoss base_model: answerdotai/ModernBERT-base pipeline_tag: text-ranking library_name: sentence-transformers metrics:
- map
- mrr@10
- ndcg@10 model-index:
- name: 基于answerdotai/ModernBERT-base的交叉编码器
results:
- task:
type: cross-encoder-reranking
name: 交叉编码器重排序
dataset:
name: gooaq开发集
type: gooaq-dev
metrics:
- type: map value: 0.4829 name: 平均准确率
- type: mrr@10 value: 0.4823 name: 前10命中率倒数
- type: ndcg@10 value: 0.5236 name: 标准化折损累积增益@10
- task:
type: cross-encoder-reranking
name: 交叉编码器重排序
dataset:
name: NanoMSMARCO R100
type: NanoMSMARCO_R100
metrics:
- type: map value: 0.4301 name: 平均准确率
- type: mrr@10 value: 0.4149 name: 前10命中率倒数
- type: ndcg@10 value: 0.4928 name: 标准化折损累积增益@10
- task:
type: cross-encoder-reranking
name: 交叉编码器重排序
dataset:
name: NanoNFCorpus R100
type: NanoNFCorpus_R100
metrics:
- type: map value: 0.3684 name: 平均准确率
- type: mrr@10 value: 0.4482 name: 前10命中率倒数
- type: ndcg@10 value: 0.3782 name: 标准化折损累积增益@10
- task:
type: cross-encoder-reranking
name: 交叉编码器重排序
dataset:
name: NanoNQ R100
type: NanoNQ_R100
metrics:
- type: map value: 0.4224 name: 平均准确率
- type: mrr@10 value: 0.422 name: 前10命中率倒数
- type: ndcg@10 value: 0.4617 name: 标准化折损累积增益@10
- task:
type: cross-encoder-nano-beir
name: 交叉编码器Nano BEIR
dataset:
name: NanoBEIR R100均值
type: NanoBEIR_R100_mean
metrics:
- type: map value: 0.407 name: 平均准确率
- type: mrr@10 value: 0.4284 name: 前10命中率倒数
- type: ndcg@10 value: 0.4442 name: 标准化折损累积增益@10
- task:
type: cross-encoder-reranking
name: 交叉编码器重排序
dataset:
name: gooaq开发集
type: gooaq-dev
metrics:
基于answerdotai/ModernBERT-base的交叉编码器
这是一个从answerdotai/ModernBERT-base微调而来的交叉编码器模型,使用sentence-transformers库开发。它计算文本对的分数,可用于文本重排序和语义搜索。
模型详情
模型描述
- 模型类型: 交叉编码器
- 基础模型: answerdotai/ModernBERT-base
- 最大序列长度: 8192个标记
- 输出标签数量: 1个标签
- 语言: en
- 许可证: apache-2.0
模型来源
- 文档: Sentence Transformers文档
- 文档: 交叉编码器文档
- 仓库: GitHub上的Sentence Transformers
- Hugging Face: Hugging Face上的交叉编码器
使用方法
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后可以加载此模型并运行推理。
from sentence_transformers import CrossEncoder
# 从🤗 Hub下载
model = CrossEncoder("ayushexel/reranker-ModernBERT-base-gooaq-1-epoch-1995000")
# 获取文本对的分数
pairs = [
['PUBG手游中有Beryl M762吗?', 'Beryl M762是PUBG手游中一款多用途突击步枪,比AKM有更多配件槽,使用7.62弹药。Beryl M762的高伤害使其成为玩家的可行选择。'],
['PUBG手游中有Beryl M762吗?', '大多数人在玩过PUBG手游后玩PUBG手游精简版时注意到的最大区别是地图的可用性。PUBG手游有四个地图:Erangel、Miramar、Sanhok和Vikendi。PUBG手游精简版只有两个地图:经典模式中的Erangel和街机模式中的War。'],
['PUBG手游中有Beryl M762吗?', 'PUBG手游精简版是PUBG手游的简化版本,专为低端设备玩家开发。目前该游戏仅适用于安卓设备,无法在iOS设备上下载。'],
['PUBG手游中有Beryl M762吗?', '使用NoxPlayer在PC上下载并玩PUBG手游!PUBG手游是由腾讯开发的一款大逃杀FPS游戏。它与Garena Free Fire和Call of Duty手游类似。NoxPlayer是在PC上玩PUBG手游的最佳模拟器。'],
['PUBG手游中有Beryl M762吗?', "你能用手柄玩PUBG手游吗?...对于PUBG手游,除了移动之外,游戏没有官方的手柄支持,这意味着你可以将蓝牙手柄连接到移动设备并移动,但按钮不会有任何映射动作。"],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# 或根据与单个文本的相似性对不同的文本进行排序
ranks = model.rank(
'PUBG手游中有Beryl M762吗?',
[
'Beryl M762是PUBG手游中一款多用途突击步枪,比AKM有更多配件槽,使用7.62弹药。Beryl M762的高伤害使其成为玩家的可行选择。',
'大多数人在玩过PUBG手游后玩PUBG手游精简版时注意到的最大区别是地图的可用性。PUBG手游有四个地图:Erangel、Miramar、Sanhok和Vikendi。PUBG手游精简版只有两个地图:经典模式中的Erangel和街机模式中的War。',
'PUBG手游精简版是PUBG手游的简化版本,专为低端设备玩家开发。目前该游戏仅适用于安卓设备,无法在iOS设备上下载。',
'使用NoxPlayer在PC上下载并玩PUBG手游!PUBG手游是由腾讯开发的一款大逃杀FPS游戏。它与Garena Free Fire和Call of Duty手游类似。NoxPlayer是在PC上玩PUBG手游的最佳模拟器。',
"你能用手柄玩PUBG手游吗?...对于PUBG手游,除了移动之外,游戏没有官方的手柄支持,这意味着你可以将蓝牙手柄连接到移动设备并移动,但按钮不会有任何映射动作。",
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
评估
指标
交叉编码器重排序
- 数据集:
gooaq-dev
- 使用
CrossEncoderRerankingEvaluator
评估,参数如下:{ "at_k": 10, "always_rerank_positives": false }
指标 | 值 |
---|---|
平均准确率 | 0.4829 (+0.2133) |
前10命中率倒数 | 0.4823 (+0.2235) |
标准化折损累积增益@10 | 0.5236 (+0.2141) |
交叉编码器重排序
- 数据集:
NanoMSMARCO_R100
,NanoNFCorpus_R100
和NanoNQ_R100
- 使用
CrossEncoderRerankingEvaluator
评估,参数如下:{ "at_k": 10, "always_rerank_positives": true }
指标 | NanoMSMARCO_R100 | NanoNFCorpus_R100 | NanoNQ_R100 |
---|---|---|---|
平均准确率 | 0.4301 (-0.0595) | 0.3684 (+0.1074) | 0.4224 (+0.0028) |
前10命中率倒数 | 0.4149 (-0.0626) | 0.4482 (-0.0516) | 0.4220 (-0.0047) |
标准化折损累积增益@10 | 0.4928 (-0.0477) | 0.3782 (+0.0531) | 0.4617 (-0.0390) |
交叉编码器Nano BEIR
- 数据集:
NanoBEIR_R100_mean
- 使用
CrossEncoderNanoBEIREvaluator
评估,参数如下:{ "dataset_names": [ "msmarco", "nfcorpus", "nq" ], "rerank_k": 100, "at_k": 10, "always_rerank_positives": true }
指标 | 值 |
---|---|
平均准确率 | 0.4070 (+0.0169) |
前10命中率倒数 | 0.4284 (-0.0396) |
标准化折损累积增益@10 | 0.4442 (-0.0112) |
训练详情
训练数据集
未命名数据集
- 大小: 11,456,701个训练样本
- 列:
question
,answer
, 和label
- 基于前1000个样本的近似统计:
问题 答案 标签 类型 字符串 字符串 整数 详情 - 最小: 20个字符
- 平均: 44.38个字符
- 最大: 82个字符
- 最小: 57个字符
- 平均: 253.74个字符
- 最大: 358个字符
- 0: ~82.70%
- 1: ~17.30%
- 样本:
问题 答案 标签 PUBG手游中有Beryl M762吗?
Beryl M762是PUBG手游中一款多用途突击步枪,比AKM有更多配件槽,使用7.62弹药。Beryl M762的高伤害使其成为玩家的可行选择。
1
PUBG手游中有Beryl M762吗?
大多数人在玩过PUBG手游后玩PUBG手游精简版时注意到的最大区别是地图的可用性。PUBG手游有四个地图:Erangel、Miramar、Sanhok和Vikendi。PUBG手游精简版只有两个地图:经典模式中的Erangel和街机模式中的War。
0
PUBG手游中有Beryl M762吗?
PUBG手游精简版是PUBG手游的简化版本,专为低端设备玩家开发。目前该游戏仅适用于安卓设备,无法在iOS设备上下载。
0
- 损失函数:
BinaryCrossEntropyLoss
,参数如下:{ "activation_fn": "torch.nn.modules.linear.Identity", "pos_weight": 5 }
训练超参数
非默认超参数
eval_strategy
: stepsper_device_train_batch_size
: 256per_device_eval_batch_size
: 256learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1seed
: 12bf16
: Truedataloader_num_workers
: 12load_best_model_at_end
: True
框架版本
- Python: 3.11.0
- Sentence Transformers: 4.0.1
- Transformers: 4.50.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.5.2
- Datasets: 3.5.0
- Tokenizers: 0.21.1
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文