标签:
- 句子转换器
- 交叉编码器
- 训练生成
- 数据集大小:399282
- 损失函数:LambdaLoss
基础模型: microsoft/MiniLM-L12-H384-uncased
管道标签: 文本排序
库名称: sentence-transformers
指标:
- 平均精度(map)
- 前10名平均倒数排名(mrr@10)
- 前10名归一化折损累积增益(ndcg@10)
二氧化碳排放:
排放量: 860.698080594824
能耗: 2.214287759246991千瓦时
来源: codecarbon
训练类型: 微调
云端训练: 否
CPU型号: 第13代英特尔酷睿i7-13700K
内存总量: 31.777088165283203GB
使用时长: 7.301小时
使用硬件: 1 x NVIDIA GeForce RTX 3090
模型索引:
- 名称: 基于microsoft/MiniLM-L12-H384-uncased的交叉编码器
结果:
- 任务:
类型: 交叉编码器重排序
名称: 交叉编码器重排序
数据集:
名称: NanoMSMARCO R100
类型: NanoMSMARCO_R100
指标:
- 类型: 平均精度(map)
值: 0.6352
名称: 平均精度
- 类型: 前10名平均倒数排名(mrr@10)
值: 0.6298
名称: 前10名平均倒数排名
- 类型: 前10名归一化折损累积增益(ndcg@10)
值: 0.6981
名称: 前10名归一化折损累积增益
- 任务:
类型: 交叉编码器重排序
名称: 交叉编码器重排序
数据集:
名称: NanoNFCorpus R100
类型: NanoNFCorpus_R100
指标:
- 类型: 平均精度(map)
值: 0.3389
名称: 平均精度
- 类型: 前10名平均倒数排名(mrr@10)
值: 0.5872
名称: 前10名平均倒数排名
- 类型: 前10名归一化折损累积增益(ndcg@10)
值: 0.4036
名称: 前10名归一化折损累积增益
- 任务:
类型: 交叉编码器重排序
名称: 交叉编码器重排序
数据集:
名称: NanoNQ R100
类型: NanoNQ_R100
指标:
- 类型: 平均精度(map)
值: 0.7174
名称: 平均精度
- 类型: 前10名平均倒数排名(mrr@10)
值: 0.7283
名称: 前10名平均倒数排名
- 类型: 前10名归一化折损累积增益(ndcg@10)
值: 0.7584
名称: 前10名归一化折损累积增益
- 任务:
类型: 交叉编码器Nano BEIR
名称: 交叉编码器Nano BEIR
数据集:
名称: NanoBEIR R100均值
类型: NanoBEIR_R100_mean
指标:
- 类型: 平均精度(map)
值: 0.5638
名称: 平均精度
- 类型: 前10名平均倒数排名(mrr@10)
值: 0.6485
名称: 前10名平均倒数排名
- 类型: 前10名归一化折损累积增益(ndcg@10)
值: 0.62
名称: 前10名归一化折损累积增益
许可证: apache-2.0
语言:
- 英语
基于microsoft/MiniLM-L12-H384-uncased的交叉编码器
这是一个基于microsoft/MiniLM-L12-H384-uncased微调的交叉编码器模型,使用sentence-transformers库训练。它计算文本对的分数,可用于文本重排序和语义搜索。
模型详情
模型描述
模型来源
使用方式
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后可以加载此模型并进行推理。
from sentence_transformers import CrossEncoder
model = CrossEncoder("tomaarsen/reranker-msmarco-MiniLM-L12-H384-uncased-lambdaloss")
pairs = [
['鸡蛋有多少卡路里', '根据大小不同,一个鸡蛋平均含有55到80卡路里。'],
['鸡蛋有多少卡路里', '蛋白热量非常低,不含脂肪和胆固醇,富含蛋白质。'],
['鸡蛋有多少卡路里', '鸡蛋中的大部分卡路里来自中心的黄色蛋黄。'],
]
scores = model.predict(pairs)
print(scores.shape)
ranks = model.rank(
'鸡蛋有多少卡路里',
[
'根据大小不同,一个鸡蛋平均含有55到80卡路里。',
'蛋白热量非常低,不含脂肪和胆固醇,富含蛋白质。',
'鸡蛋中的大部分卡路里来自中心的黄色蛋黄。',
]
)
评估
指标
交叉编码器重排序
指标 |
NanoMSMARCO_R100 |
NanoNFCorpus_R100 |
NanoNQ_R100 |
平均精度(map) |
0.6352 (+0.1456) |
0.3389 (+0.0779) |
0.7174 (+0.2978) |
前10名平均倒数排名(mrr@10) |
0.6298 (+0.1523) |
0.5872 (+0.0874) |
0.7283 (+0.3016) |
前10名归一化折损累积增益(ndcg@10) |
0.6981 (+0.1577) |
0.4036 (+0.0786) |
0.7584 (+0.2577) |
交叉编码器Nano BEIR
- 数据集:
NanoBEIR_R100_mean
- 使用
CrossEncoderNanoBEIREvaluator
评估,参数如下:{
"dataset_names": [
"msmarco",
"nfcorpus",
"nq"
],
"rerank_k": 100,
"at_k": 10,
"always_rerank_positives": true
}
指标 |
值 |
平均精度(map) |
0.5638 (+0.1738) |
前10名平均倒数排名(mrr@10) |
0.6485 (+0.1805) |
前10名归一化折损累积增益(ndcg@10) |
0.6200 (+0.1647) |
训练详情
训练数据集
未命名数据集
- 大小: 399,282个训练样本
- 列:
query
, docs
, 和 labels
- 基于前1000个样本的近似统计:
|
查询 |
文档 |
标签 |
类型 |
字符串 |
列表 |
列表 |
详情 |
- 最小: 6个字符
- 平均: 33.0个字符
- 最大: 154个字符
|
- 最小: 6个元素
- 平均: 13.23个元素
- 最大: 20个元素
|
- 最小: 6个元素
- 平均: 13.23个元素
- 最大: 20个元素
|
- 样本:
查询 |
文档 |
标签 |
intel current gen core processors |
["与Core处理器相同或更强大的版本也作为Xeon处理器在服务器和工作站市场销售。截至2017年,当前的Core处理器系列包括Intel Core i7、Intel Core i5和Intel Core i3,以及Y系列的Intel Core CPU。", "最明显的是松下从Intel Core 2 Duo电源转向最新的Intel Core i3和i5处理器。新的Toughbook 31中可用的三种处理器,连同新的Mobile Intel QM57 Express芯片组,都是英特尔Calpella平台的一部分。", '新的第7代Intel Core i7-7700HQ处理器为14英寸Razer Blade提供了2.8GHz的四核处理能力和Turbo Boost速度,可自动将活动核心的速度提升至3.8GHz。', '关键区别:Intel Core i3是一种双核处理器。i5处理器有2到4个核心。双核处理器是一种中央处理单元(CPU),具有两个完整的执行核心。因此,它有两个...'] |
[1, 0, 0, 0, 0, ...] |
renovation definition |
['翻新是更新或恢复某物的行为。如果你的厨房正在进行翻新,可能到处都是灰泥和油漆,你可能应该叫外卖。', '2017年新画廊空间开放。2017年初,我们的四楼将变成一个历史教育和创新的新目的地。在当前的翻新期间,我们永久收藏的物品在博物馆各处展出。', '在澳大利亚,同一层的房屋扩建费用大约在60,000到200,000+澳元之间。在底层增加一个房间或扩展你的生活区是创造更多空间的实惠方式。以下是一些关键点,可以帮助你控制翻新成本。'] |
[1, 0, 0, 0, 0, ...] |
what is a girasol |
['Girasol定义,一种反射光线并发出明亮光芒的蛋白石。查看更多。', '此外,来自墨西哥的一种蛋白石,称为墨西哥水蛋白石,是一种无色蛋白石,显示蓝色或金色的内部光泽。Girasol蛋白石有时被错误和不当地用来指代火蛋白石,以及一种来自马达加斯加的透明到半透明类型的乳白色石英,当切割适当时会显示星形效果。', 'Girasol的含义是什么?Girasol这个名字有多受欢迎?学习Girasol的起源和流行度以及如何发音Girasol', '蛋白石有5种基本类型。这些类型是秘鲁蛋白石、火蛋白石、Girasol蛋白石、普通蛋白石和珍贵蛋白石。'] |
[1, 0, 0, 0, 0, ...] |
- 损失函数: [
LambdaLoss