许可证: MIT
数据集:
- dleemiller/wiki-sim
- sentence-transformers/stsb
语言:
- 英语
评估指标:
- 斯皮尔曼相关系数
- 皮尔逊相关系数
基础模型:
- answerdotai/ModernBERT-large
任务标签: 文本分类
库名称: sentence-transformers
标签:
- 交叉编码器
- modernbert
- 语义文本相似度
- stsb
- stsbenchmark-sts
模型索引:
- 名称: 基于answerdotai/ModernBERT-large的交叉编码器
结果:
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts测试集
类型: sts-test
指标:
- 类型: 皮尔逊余弦相似度
值: 0.9256352639938148
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦相似度
值: 0.9214535713008775
名称: 斯皮尔曼余弦
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts开发集
类型: sts-dev
指标:
- 类型: 皮尔逊余弦相似度
值: 0.933041295532361
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦相似度
值: 0.9316328000924687
名称: 斯皮尔曼余弦
ModernBERT交叉编码器:语义相似度评估(STS)
交叉编码器是高性能的文本比对模型,能够输出0-1分制的相似度评分。实践证明cross-encoders/roberta-large-stsb
模型在评估大语言模型输出时极为有效——它们简单易用、响应迅速且精度卓越。
与许多研究者一样,我对ModernBERT架构(answerdotai/ModernBERT-large
)带来的模型结构创新与训练提升感到振奋。因此我将其应用于STS交叉编码任务,并融合了针对此类任务设计的半合成数据集dleemiller/wiki-sim
进行预训练。该模型在推理效率、上下文扩展能力和易用性方面的优势,使其成为理想的评估器模型。
核心优势
- 卓越性能:在STS-Benchmark测试集上取得皮尔逊系数0.9256与斯皮尔曼系数0.9215
- 高效架构:基于ModernBERT-large设计(3.95亿参数),推理速度更快
- 长文本支持:支持最长8192个token的序列处理,特别适合大语言模型输出评估
- 复合训练:先通过
dleemiller/wiki-sim
预训练,再经sentence-transformers/stsb
微调
性能对比
模型名称 |
STS测试集皮尔逊 |
STS测试集斯皮尔曼 |
上下文长度 |
参数量 |
推理速度 |
ModernCE-large-sts |
0.9256 |
0.9215 |
8192 |
3.95亿 |
中速 |
ModernCE-base-sts |
0.9162 |
0.9122 |
8192 |
1.49亿 |
快速 |
stsb-roberta-large |
0.9147 |
- |
512 |
3.55亿 |
较慢 |
stsb-distilroberta-base |
0.8792 |
- |
512 |
8200万 |
快速 |
使用指南
通过Hugging Face的sentence-transformers
库加载模型:
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-large-sts")
句子对 = [
("今天室外天气真好", "阳光明媚的一天啊"),
("今天室外天气真好", "他刚才开车去上班了"),
]
相似度分数 = model.predict(句子对)
print(相似度分数)
输出说明
模型返回0-1范围的相似度评分,数值越高表示语义相似性越强。
训练详情
预训练阶段
使用dleemiller/wiki-sim
数据集的pair-score-sampled
子集进行预训练,该数据集包含带相似度评分的多样化句对:
- 分类器丢弃率:采用0.3的相对较高值,避免对教师评分过度依赖
- 优化目标:以
cross-encoder/stsb-roberta-large
的STS-B评分为基准
微调阶段
在sentence-transformers/stsb
数据集上进行最终微调。
验证结果
微调后的测试集表现:
- 皮尔逊相关系数:0.9256
- 斯皮尔曼相关系数:0.9215
模型档案
- 架构:ModernBERT-large
- 分词器:采用支持长文本处理的现代分词技术
- 预训练数据:
dleemiller/wiki-sim (pair-score-sampled)
- 微调数据:
sentence-transformers/stsb
致谢
感谢AnswerAI团队提供ModernBERT模型,以及Sentence Transformers团队在编码器模型领域的引领工作。
引用规范
学术使用时请引用:
@misc{moderncestsb2025,
作者 = {Miller, D. Lee},
标题 = {ModernCE STS: 语义相似度交叉编码模型},
年份 = {2025},
发布平台 = {Hugging Face Hub},
网址 = {https://huggingface.co/dleemiller/ModernCE-large-sts},
}
版权声明
本模型采用MIT许可证授权。