标签:
- 句子转换器
- 交叉编码器
- 训练生成
- 数据集大小:23770
- 损失函数:多重负样本排序损失
基础模型: cross-encoder/ms-marco-MiniLM-L12-v2
管道标签: 文本排序
库名称: sentence-transformers
指标:
- 平均精度
- 前5命中率
- 前5标准化折损累积增益
模型索引:
- 名称: 基于cross-encoder/ms-marco-MiniLM-L12-v2的交叉编码器
结果:
- 任务:
类型: 交叉编码器重排序
名称: 交叉编码器重排序
数据集:
名称: 主张证据开发集
类型: 主张-证据-开发集
指标:
- 类型: 平均精度
值: 0.9904
名称: 平均精度
- 类型: 前5命中率
值: 1.0
名称: 前5命中率
- 类型: 前5标准化折损累积增益
值: 0.9882
名称: 前5标准化折损累积增益
基于cross-encoder/ms-marco-MiniLM-L12-v2的交叉编码器
这是一个基于cross-encoder/ms-marco-MiniLM-L12-v2微调的交叉编码器模型,使用sentence-transformers库开发。它计算文本对的分数,可用于文本重排序和语义搜索。
模型详情
模型描述
模型来源
使用方式
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后可以加载此模型并运行推理。
from sentence_transformers import CrossEncoder
model = CrossEncoder("Davidsamuel101/ft-ms-marco-MiniLM-L12-v2-claims-reranker-v2")
pairs = [
['不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。', '在极高浓度(大气浓度的100倍或更高)下,二氧化碳可能对动物生命有毒,因此将浓度提高到10,000 ppm(1%)或更高几小时将消除温室中的害虫,如白粉虱和红蜘蛛。'],
['不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。', '在1,000 ppm CO2浓度下,植物生长速度可比环境条件下快50%,尽管这假设气候不变且其他养分不受限制。'],
['不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。', '更高的二氧化碳浓度将有利于植物生长和水分需求。'],
['不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。', "地球大气中的二氧化碳对生命和大多数行星生物圈至关重要。"],
['不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。', 'Rennie 2009: "主张1: 人为CO2不可能改变气候,因为CO2只是大气中的微量气体,人类产生的量远小于火山和其他自然来源的量。"'],
]
scores = model.predict(pairs)
print(scores.shape)
ranks = model.rank(
'不仅没有科学证据表明CO2是污染物,更高浓度的CO2实际上有助于生态系统支持更多动植物生命。',
[
'在极高浓度(大气浓度的100倍或更高)下,二氧化碳可能对动物生命有毒,因此将浓度提高到10,000 ppm(1%)或更高几小时将消除温室中的害虫,如白粉虱和红蜘蛛。',
'在1,000 ppm CO2浓度下,植物生长速度可比环境条件下快50%,尽管这假设气候不变且其他养分不受限制。',
'更高的二氧化碳浓度将有利于植物生长和水分需求。',
"地球大气中的二氧化碳对生命和大多数行星生物圈至关重要。",
'Rennie 2009: "主张1: 人为CO2不可能改变气候,因为CO2只是大气中的微量气体,人类产生的量远小于火山和其他自然来源的量。"',
]
)
评估
指标
交叉编码器重排序
指标 |
值 |
平均精度 |
0.9904 (-0.0096) |
前5命中率 |
1.0000 (+0.0000) |
前5标准化折损累积增益 |
0.9882 (-0.0118) |
训练详情
训练数据集
未命名数据集
训练超参数
非默认超参数
eval_strategy
: 步骤
per_device_train_batch_size
: 16
learning_rate
: 3e-06
num_train_epochs
: 5
bf16
: True
load_best_model_at_end
: True
框架版本
- Python: 3.13.2
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.7.0+cu128
- Accelerate: 1.6.0
- Datasets: 3.6.0
- Tokenizers: 0.21.1
引用
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}