CodeSearch-ModernBERT-Crow-Plus开源代码搜索模型 - 支持多语言自然语言与代码语义匹配

首页

Codesearch ModernBERT Crow Plus

由 Shuu12121 开发

基于ModernBERT架构优化的多语言代码搜索模型，支持自然语言与代码间的语义匹配

文本嵌入支持多种语言开源协议:Apache-2.0 #多语言代码搜索 #函数级语义匹配 #自然语言转代码

下载量 96

发布时间 : 4/25/2025

模型简介

该模型是针对多语言代码搜索任务优化的句子转换器模型，能够高效捕捉自然语言查询与多种编程语言代码片段之间的语义相似性

模型特点

多语言代码支持

支持Python、Java、JavaScript、PHP、Ruby、Go、Rust等多种编程语言的代码搜索

高精度语义匹配

在MTEB代码搜索任务中取得nDCG@10 0.893的优异成绩，排名前8/146

函数级代码理解

专门针对函数级代码片段优化，能精准匹配语义相似的代码实现

日语查询支持

通过集成Qwen3-8B-FP8翻译模型，支持日语自然语言查询转换为英语搜索

模型能力

自然语言到代码搜索

代码到代码相似性比较

多语言代码特征提取

函数级代码语义分析

使用案例

代码搜索系统

GitHub仓库函数级搜索

构建针对GitHub仓库的函数级代码搜索系统，支持自然语言查询

首次创建索引后可快速复用，支持高精度语义搜索

开发辅助工具

代码推荐

根据开发者的自然语言描述推荐相似代码实现

代码复用检测

识别项目中语义相似但实现不同的代码片段

🚀 Shuu12121/CodeSearch-ModernBERT-Crow-Plus🐦‍⬛

CodeSearch-ModernBERT-Crow-Plus 是一个基于 Shuu12121/CodeModernBERT-Crow 的 Sentence Transformer 模型。它经过微调，在多语言代码搜索任务中表现出色，能够有效捕捉自然语言查询与多种编程语言代码片段之间的语义相似性。

开发者 (Developer): Shuu12121
基础模型 (Base Model): Shuu12121/CodeModernBERT-Crow
许可证: Apache-2.0

👉 立即在 Google Colab 上试用
你可以轻松试用基于此模型构建的 GitHub 仓库函数级代码搜索系统！

🚀 快速开始

本模型可以借助 sentence-transformers 库轻松使用，以下是使用示例：

from sentence_transformers import SentenceTransformer
import torch

# 加载模型 / Load the model
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus")

# 要编码的文本（代码或自然语言） / Texts to encode (code or natural language)
code_snippets = [
    "def factorial(n): if n == 0: return 1 else: return n * factorial(n-1)",
    "function binarySearch(arr, target) { let left = 0, right = arr.length - 1; while (left <= right) { const mid = Math.floor((left + right) / 2); if (arr[mid] === target) return mid; if (arr[mid] < target) left = mid + 1; else right = mid - 1; } return -1; }"
]

natural_language_queries = [
    "calculate the factorial of a number recursively",
    "find an element in a sorted array using binary search"
]

# 获取嵌入 / Get embeddings
code_embeddings = model.encode(code_snippets)
query_embeddings = model.encode(natural_language_queries)

print("Code Embeddings Shape:", code_embeddings.shape)
print("Query Embeddings Shape:", query_embeddings.shape)

# 计算相似度（例如：余弦相似度） / Calculate similarity (e.g., cosine similarity)
# 需要一个相似度函数，例如：from sentence_transformers.util or sklearn.metrics.pairwise
# from sentence_transformers.util import cos_sim
# similarities = cos_sim(query_embeddings, code_embeddings)
# print(similarities)

✨ 主要特性

高性能代码搜索：在 MTEB 基准测试的多个代码搜索任务中取得了优异成绩，展现出强大的代码搜索能力。
多语言支持：支持 Python、Java、JavaScript、PHP、Ruby、Go、Rust 等多种编程语言。
语义理解：能够捕捉自然语言查询与代码片段之间的语义相似性，实现自然语言 - 代码间的高效检索。
易于集成：可以通过 sentence-transformers 库轻松集成到项目中。

📦 安装指南

使用此模型需要安装 sentence-transformers 库，可通过以下命令进行安装：

pip install sentence-transformers

📊 MTEB 排行榜成绩

本模型 CodeSearch-ModernBERT-Crow-Plus 在 Massive Text Embedding Benchmark (MTEB) 的以下任务中取得了较高排名：当前排名可在排行榜中查看。

任务名称	nDCG@10 分数	排名（截至2025年4月）
CodeSearchNetRetrieval	0.89296	第8位 / 146 个模型中
COIRCodeSearchNetRetrieval	0.79884	第5位 / 15 个模型中

这些结果表明，本模型在代码搜索任务中具有很强的竞争力，尤其在 多语言、自然语言 - 代码间的检索精度 方面表现出色，是一个实用的选择。

🧩 与相关项目的集成

CodeSearch-ModernBERT-Crow-Plus 可以像 CodeSearchCrow.ipynb 那样，轻松构建一个 针对实际 GitHub 仓库的函数级代码搜索系统。

该笔记本会执行以下操作：

指定并克隆 GitHub 仓库。
从 .py 或 .ipynb 文件中提取函数和代码单元。
使用 Sentence Transformer 模型对函数代码进行嵌入。
创建 FAISS 索引以实现快速检索。
通过 Qwen3 - 8B - FP8 模型进行 日语 - 英语翻译，实现日语查询的自然检索。

🔹 特点

首次运行创建索引，后续可快速复用：首次运行时创建索引，后续使用无需重复操作，提高检索效率。
函数级检索：支持函数级代码搜索，能够高精度地检索出语义最相似的代码。
支持日语查询：借助 [Qwen3 - 8B - FP8](https://huggingface.co/Qwen/Qwen3 - 8B - FP8) 模型进行翻译后，可直接使用日语进行查询。

🔗 链接

📄 可执行笔记本：.ipynb

📚 详细文档

概要

CodeSearch-ModernBERT-Crow-Plus 是一个 Sentence Transformer 模型，旨在捕捉自然语言查询与多种编程语言（Python、Java、JavaScript、PHP、Ruby、Go、Rust）代码片段（主要是函数级）之间的语义相似性。它继承了基础模型 CodeModernBERT-Crow 的强大代码理解能力，并针对代码搜索和相似性判定任务进行了优化。

模型细节

属性	详情
基础模型	Shuu12121/CodeModernBERT-Crow
架构	ModernBERT (隐藏层大小: 768, 层数: 12, 头数: 12)
最大输入长度	1024 个标记
微调	该模型可能使用代码及其对应的文档（如 CodeSearchNet 数据集）进行了相似性学习任务的微调，并添加了 Pooling 层以用于 Sentence Transformer 库。

🔧 技术细节

评估

本模型在 MTEB (Massive Text Embedding Benchmark) 上进行了评估。

任务: CodeSearchNet Retrieval

MTEB 标准评估 (主要分数: nDCG@10): 0.89296
- ndcg_at_1: 0.8135
- ndcg_at_3: 0.8781
- ndcg_at_5: 0.8868
- ndcg_at_10: 0.8930
- ndcg_at_20: 0.8947
- ndcg_at_100: 0.8971
- ndcg_at_1000: 0.8995
- map_at_10: 0.8705
- recall_at_10: 0.9610
- mrr_at_10: 0.8705
COIR 版评估 (主要分数: nDCG@10): 0.79884
- ndcg_at_1: 0.7152
- ndcg_at_3: 0.7762
- ndcg_at_5: 0.7885
- ndcg_at_10: 0.7988
- ndcg_at_20: 0.8056
- ndcg_at_100: 0.8134
- ndcg_at_1000: 0.8172
- map_at_10: 0.7729
- recall_at_10: 0.8794
- mrr_at_10: 0.7729