ModernCE-base-sts开源语义相似度模型 - 免费评估文本相似度，支持长文处理

首页

Modernce Base Sts

由 dleemiller 开发

ModernBERT交叉编码器是一个高性能的语义相似度模型，专为评估文本相似度设计，支持长上下文处理。

文本分类

Safetensors

支持多种语言开源协议:MIT #长文本语义匹配 #高精度STS评估 #ModernBERT架构

下载量 351

发布时间 : 1/13/2025

模型简介

该模型基于ModernBERT-base架构，通过交叉编码器方式比较两段文本的语义相似度，输出0-1的相似度分数。适用于评估大语言模型输出、文本匹配等场景。

模型特点

高性能

在STS-Benchmark测试集上达到皮尔逊系数0.9162和斯皮尔曼系数0.9122。

高效架构

基于ModernBERT-base设计（1.49亿参数），推理速度更快。

扩展的上下文长度

支持处理长达8192个标记的序列，非常适合评估LLM输出。

多样化训练

在dleemiller/wiki-sim上预训练，并在sentence-transformers/stsb上微调。

模型能力

语义相似度计算

文本对比较

长文本处理

使用案例

文本评估

大语言模型输出评估

评估大语言模型生成的文本与参考文本的语义相似度。

提供0-1的相似度分数，帮助量化模型输出质量。

文本匹配

比较两段文本的语义相似度，用于问答系统、信息检索等场景。

高准确度的相似度评分，提升匹配效果。

🚀 基于ModernBERT的交叉编码器：语义相似度（STS）

本项目基于answerdotai/ModernBERT-base架构，构建了用于语义相似度任务的交叉编码器。交叉编码器能够比较两个文本并输出0 - 1之间的相似度得分，在评估大语言模型（LLM）输出方面表现出色。本模型具有高性能、高效架构、长上下文处理能力和多样化训练等优势，是语义相似度评估的优质选择。

🚀 快速开始

要使用ModernCE进行语义相似度任务，你可以使用Hugging Face的sentence-transformers库加载模型：

from sentence_transformers import CrossEncoder

# 加载ModernCE模型
model = CrossEncoder("dleemiller/ModernCE-base-sts")

# 预测句子对的相似度得分
sentence_pairs = [
    ("It's a wonderful day outside.", "It's so sunny today!"),
    ("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)

print(scores)  # 输出: array([0.9184, 0.0123], dtype=float32)

输出

模型返回的相似度得分范围为[0, 1]，得分越高表示语义相似度越强。

✨ 主要特性

高性能：在STS基准测试集上，皮尔逊相关系数达到0.9162，斯皮尔曼相关系数达到0.9122。
高效架构：基于ModernBERT-base设计（1.49亿参数），推理速度更快。
长上下文处理能力：能够处理长达8192个标记的序列，非常适合评估大语言模型的输出。
多样化训练：在dleemiller/wiki-sim数据集上进行预训练，并在sentence-transformers/stsb数据集上进行微调。

📊 性能表现

模型名称	STS - B测试集皮尔逊相关系数	STS - B测试集斯皮尔曼相关系数	上下文长度	参数数量	速度
`ModernCE-large-sts`	0.9256	0.9215	8192	3.95亿	中等
`ModernCE-base-sts`	0.9162	0.9122	8192	1.49亿	快速
`stsb-roberta-large`	0.9147	-	512	3.55亿	慢速
`stsb-distilroberta-base`	0.8792	-	512	0.82亿	快速

💻 使用示例

基础用法

from sentence_transformers import CrossEncoder

# 加载ModernCE模型
model = CrossEncoder("dleemiller/ModernCE-base-sts")

# 预测句子对的相似度得分
sentence_pairs = [
    ("It's a wonderful day outside.", "It's so sunny today!"),
    ("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)

print(scores)  # 输出: array([0.9184, 0.0123], dtype=float32)

🔧 技术细节

预训练

模型在dleemiller/wiki-sim数据集的pair-score-sampled子集上进行预训练。该数据集提供了多样化的句子对及语义相似度得分，有助于模型建立对句子关系的强大理解。

分类器丢弃率：采用了相对较大的分类器丢弃率0.3，以减少对教师得分的过度依赖。
目标：以cross-encoder/stsb-roberta-large的STS - B得分作为目标。

微调

模型在sentence-transformers/stsb数据集上进行微调。

验证结果

微调后，模型在测试集上取得了以下性能：

皮尔逊相关系数：0.9162
斯皮尔曼相关系数：0.9122

📚 详细文档

模型卡片

属性	详情
模型架构	ModernBERT - base
分词器	使用现代技术训练的自定义分词器，用于长上下文处理
预训练数据	`dleemiller/wiki-sim (pair-score-sampled)`
微调数据	`sentence-transformers/stsb`

📄 许可证

本模型采用MIT许可证。

🙏 致谢

感谢AnswerAI团队提供ModernBERT模型，以及Sentence Transformers团队在Transformer编码器模型方面的杰出贡献。

📖 引用

如果您在研究中使用了本模型，请引用：

@misc{moderncestsb2025,
  author = {Miller, D. Lee},
  title = {ModernCE STS: An STS cross encoder model},
  year = {2025},
  publisher = {Hugging Face Hub},
  url = {https://huggingface.co/dleemiller/ModernCE-base-sts},
}