许可证: MIT
数据集:
- dleemiller/wiki-sim
- sentence-transformers/stsb
语言:
- en
评估指标:
- spearmanr
- pearsonr
基础模型:
- answerdotai/ModernBERT-base
任务标签: 文本分类
库名称: sentence-transformers
标签:
- 交叉编码器
- modernbert
- 语义文本相似度
- stsb
- stsbenchmark-sts
模型索引:
- 名称: 基于answerdotai/ModernBERT-base的交叉编码器
结果:
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts测试集
类型: sts-test
评估指标:
- 类型: 皮尔逊余弦相似度
值: 0.9162245947821821
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦相似度
值: 0.9121555789491528
名称: 斯皮尔曼余弦
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts开发集
类型: sts-dev
评估指标:
- 类型: 皮尔逊余弦相似度
值: 0.9260833551026787
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦相似度
值: 0.9236030687487745
名称: 斯皮尔曼余弦
ModernBERT交叉编码器:语义相似度(STS)
交叉编码器是高性能的编码器模型,可比较两段文本并输出0-1的相似度分数。我发现cross-encoders/roberta-large-stsb
模型在评估大语言模型(LLM)输出时非常有用。它们简单易用、速度快且非常准确。
和许多人一样,我对ModernBERT架构(answerdotai/ModernBERT-base
)带来的架构改进和训练提升感到兴奋。因此,我将其应用于STS-B交叉编码器,这是一个非常实用的模型。此外,我还添加了针对此类目标的大规模半合成数据集dleemiller/wiki-sim
的预训练。推理性能效率、扩展的上下文和简洁性使其成为一个非常优秀的评估模型平台。
特性
- 高性能:在STS-Benchmark测试集上达到皮尔逊系数:0.9162和斯皮尔曼系数:0.9122。
- 高效架构:基于ModernBERT-base设计(1.49亿参数),推理速度更快。
- 扩展的上下文长度:支持处理长达8192个标记的序列,非常适合评估LLM输出。
- 多样化训练:在
dleemiller/wiki-sim
上预训练,并在sentence-transformers/stsb
上微调。
性能
模型 |
STS-B测试皮尔逊系数 |
STS-B测试斯皮尔曼系数 |
上下文长度 |
参数量 |
速度 |
ModernCE-large-sts |
0.9256 |
0.9215 |
8192 |
3.95亿 |
中等 |
ModernCE-base-sts |
0.9162 |
0.9122 |
8192 |
1.49亿 |
快 |
stsb-roberta-large |
0.9147 |
- |
512 |
3.55亿 |
慢 |
stsb-distilroberta-base |
0.8792 |
- |
512 |
8200万 |
快 |
使用方法
要使用ModernCE进行语义相似度任务,可以通过Hugging Face的sentence-transformers
库加载模型:
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-base-sts")
sentence_pairs = [
("今天外面的天气真好。", "今天阳光真灿烂!"),
("今天外面的天气真好。", "他早些时候开车去上班了。"),
]
scores = model.predict(sentence_pairs)
print(scores)
输出
模型返回的相似度分数范围为[0, 1]
,分数越高表示语义相似度越强。
训练详情
预训练
模型在dleemiller/wiki-sim
数据集的pair-score-sampled
子集上进行了预训练。该数据集提供了多样化的句子对及其语义相似度分数,帮助模型建立对句子间关系的鲁棒理解。
- 分类器丢弃率:较大的分类器丢弃率0.3,以减少对教师分数的过度依赖。
- 目标:来自
cross-encoder/stsb-roberta-large
的STS-B分数。
微调
微调在sentence-transformers/stsb
数据集上进行。
验证结果
微调后,模型在测试集上的表现如下:
- 皮尔逊相关系数:0.9162
- 斯皮尔曼相关系数:0.9122
模型卡片
- 架构:ModernBERT-base
- 分词器:采用现代技术训练的自定义分词器,支持长上下文处理。
- 预训练数据:
dleemiller/wiki-sim (pair-score-sampled)
- 微调数据:
sentence-transformers/stsb
致谢
感谢AnswerAI团队提供ModernBERT模型,以及Sentence Transformers团队在Transformer编码器模型领域的领导工作。
引用
如果您在研究中使用了此模型,请引用:
@misc{moderncestsb2025,
author = {Miller, D. Lee},
title = {ModernCE STS: 语义相似度交叉编码器模型},
year = {2025},
publisher = {Hugging Face Hub},
url = {https://huggingface.co/dleemiller/ModernCE-base-sts},
}
许可证
本模型采用MIT许可证。