CodeSearch-ModernBERT-Owl开源代码搜索模型 - 支持长序列代码检索应用

首页

Codesearch ModernBERT Owl

由 Shuu12121 开发

专为代码搜索设计的句子转换器模型，基于ModernBERT架构，支持2048标记的序列长度

文本嵌入

Safetensors

英语开源协议:Apache-2.0 #代码搜索优化 #长序列处理 #代码-文档匹配

下载量 75

发布时间 : 3/25/2025

模型简介

该模型是从CodeModernBERT-Owl微调而来的句子转换器模型，专门用于计算代码片段与文档之间的语义相似度，适用于代码搜索任务。

模型特点

长序列支持

支持最大2048个标记的序列长度，能处理中等长度的代码片段和文档

高效代码搜索

专门优化用于代码搜索任务，能高效计算代码与文档的语义相似度

轻量级高性能

仅约1.5亿参数的小型模型，但在代码搜索任务中表现优异

模型能力

代码语义理解

文档字符串相似度计算

代码搜索

使用案例

代码搜索

代码片段搜索

根据自然语言查询搜索相关代码片段

在CodeSearchNet基准测试中取得76.89分

文档-代码匹配

将文档描述与实现代码进行匹配验证

🚀 基于Shuu12121/CodeModernBERT-Owl🦉的句子转换器

该模型是一个基于 Shuu12121/CodeModernBERT-Owl 微调的 sentence-transformers 模型，而 Shuu12121/CodeModernBERT-Owl 是我专门为代码设计、从头开始预训练的 ModernBERT 模型。它专为代码搜索而设计，能够高效计算代码片段和文档之间的语义相似度。该模型的一个关键特性是其 最大序列长度为 2048 个标记，这使其能够处理中等长度的代码片段和文档。尽管它是一个参数约为 1.5 亿 的相对较小的模型，但在代码搜索任务中表现出色。

✨ 主要特性

专为代码搜索设计：能够高效计算代码片段和文档之间的语义相似度。
长序列处理能力：最大序列长度为 2048 个标记，可处理中等长度的代码片段和文档。
小模型高性能：尽管参数约为 1.5 亿，在代码搜索任务中表现出色。

📦 安装指南

要安装 sentence-transformers，请运行以下命令：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 下载并加载模型
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Owl")

# 推理用的句子列表
sentences = [
    'Encrypts the zip file',
    'def freeze_encrypt(dest_dir, zip_filename, config, opt):\n    \n    pgp_keys = grok_keys(config)\n    icefile_prefix = "aomi-%s" % \\\n                     os.path.basename(os.path.dirname(opt.secretfile))\n    if opt.icefile_prefix:\n        icefile_prefix = opt.icefile_prefix\n\n    timestamp = time.strftime("%H%M%S-%m-%d-%Y",\n                              datetime.datetime.now().timetuple())\n    ice_file = "%s/%s-%s.ice" % (dest_dir, icefile_prefix, timestamp)\n    if not encrypt(zip_filename, ice_file, pgp_keys):\n        raise aomi.exceptions.GPG("Unable to encrypt zipfile")\n\n    return ice_file',
    'def transform(self, sents):\n        \n\n        def convert(tokens):\n            return torch.tensor([self.vocab.stoi[t] for t in tokens], dtype=torch.long)\n\n        if self.vocab is None:\n            raise Exception(\n                "Must run .fit() for .fit_transform() before " "calling .transform()."\n            )\n\n        seqs = sorted([convert(s) for s in sents], key=lambda x: -len(x))\n        X = torch.LongTensor(pad_sequence(seqs, batch_first=True))\n        return X',
]

# 生成嵌入向量
embeddings = model.encode(sentences)
print(embeddings.shape)  # 输出: [3, 768]

# 计算相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)  # 输出: [3, 3]

📚 详细文档

模型评估

CoIR 评估结果

该模型虽然是一个参数约为 1.5 亿 的相对较小的模型，但在 CodeSearchNet 基准测试中取得了令人瞩目的 76.89 分，证明了其在代码搜索任务中的高性能。由于该模型专门用于代码搜索，不支持其他任务，因此未提供其他任务的评估分数。在 CodeSearchNet 任务中，该模型的表现优于许多知名模型，如下表所示。

模型名称	CodeSearchNet 得分
Shuu12121/CodeModernBERT-Owl	76.89
Salesforce/SFR-Embedding-Code-2B_R	73.5
CodeSage-large-v2	94.26
Salesforce/SFR-Embedding-Code-400M_R	72.53
CodeSage-large	90.58
Voyage-Code-002	81.79
E5-Mistral	54.25
E5-Base-v2	67.99
OpenAI-Ada-002	74.21
BGE-Base-en-v1.5	69.6
BGE-M3	43.23
UniXcoder	60.2
GTE-Base-en-v1.5	43.35
Contriever	34.72

模型详情

属性	详情
模型类型	Sentence Transformer
基础模型	Shuu12121/CodeModernBERT-Owl
最大序列长度	2048 个标记
输出维度	768 维
相似度函数	余弦相似度
许可证	Apache-2.0

库版本

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.50.0
PyTorch: 2.6.0+cu124
Accelerate: 1.5.2
Datasets: 3.4.1
Tokenizers: 0.21.1

引用信息

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}