CodeModernBERT-Owl-3.0开源代码模型 - 优化代码搜索、摘要与错误修复等任务

首页

Codemodernbert Owl 3.0

由 Shuu12121 开发

CodeModernBERT-Owl-3.0 是 CodeModernBERT 系列中多语言长上下文编码器模型的最终预训练版本，针对代码搜索、代码摘要、错误修复和表示学习等下游代码相关任务进行了优化。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言代码理解 #长上下文编码 #函数级语义嵌入

下载量 119

发布时间 : 6/20/2025

模型简介

该模型基于预训练检查点 CodeModernBERT-Owl-3.0-Pre 构建，并进一步进行了预训练，以更好地捕捉多种编程语言源代码中的结构模式和语义。

模型特点

长上下文窗口

支持 2048 个标记的上下文窗口，适合理解长代码。

多语言支持

在 8 种编程语言的 1120 万个函数上进行训练，支持多语言代码理解。

下游任务优化

针对代码搜索、语义嵌入、摘要和完形填空式错误修复等下游任务进行了微调。

高性能

在 CodeSearchNet 测试集的所有语言中实现了最高的 MRR，展示了出色的跨语言一致性。

模型能力

代码搜索

代码摘要

错误修复

表示学习

多语言代码理解

使用案例

代码搜索

跨语言代码搜索

使用模型嵌入进行跨语言的代码搜索任务。

在 CodeSearchNet 测试集上，MRR 达到 0.8814（Python）。

代码摘要

自动生成代码摘要

利用模型生成代码片段的自然语言摘要。

错误修复

完形填空式错误修复

使用模型的填充掩码功能进行代码错误修复。

🚀 🦉CodeModernBERT-Owl-3.0

CodeModernBERT-Owl-3.0 是 CodeModernBERT 系列中多语言长上下文编码器模型的最终预训练版本。它针对代码搜索、代码摘要、错误修复和表示学习等下游代码相关任务进行了优化。

该模型基于预训练检查点 CodeModernBERT-Owl-3.0-Pre 构建，并进一步进行了预训练，以更好地捕捉多种编程语言源代码中的结构模式和语义。

🚀 快速开始

模型亮点

✅ 2048 个标记的上下文窗口，用于理解长代码
✅ 在 8 种编程语言的 1120 万个函数上进行训练
✅ 针对下游可用性进行微调
✅ 适用于代码搜索、语义嵌入、摘要和完形填空式错误修复
✅ 支持多语言：Python、JavaScript、Java、TypeScript、PHP、Go、Ruby、Rust 等

架构

基础：ModernBERT 风格的编码器
隐藏层大小：768
层数：12
注意力头：12
参数：约 1.5 亿
预训练：掩码语言模型（MLM）
微调：特定领域的代码任务

模型信息

属性	详情
模型类型	modernbert
训练数据	从 CodeSearchNet、自定义 GitHub 仓库和过滤后的多语言语料库中提取的 11,257,713 个函数级代码片段，使用 Tree-sitter 提取，涉及的编程语言包括 Python、JavaScript、Java、TypeScript、PHP、Go、Ruby、Rust
最大序列长度	2048
预训练参数数量	约 1.5 亿
训练语料库大小	11,257,713

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("Shuu12121/CodeModernBERT-Owl-3.0")
model = AutoModel.from_pretrained("Shuu12121/CodeModernBERT-Owl-3.0")

code = "def factorial(n):\n    if n <= 1:\n        return 1\n    return n * factorial(n - 1)"
inputs = tokenizer(code, return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)

# Mean Pooling
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output.last_hidden_state
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

embeddings = mean_pooling(outputs, inputs['attention_mask'])

高级用法

from transformers import pipeline

fill_mask = pipeline("fill-mask", model="Shuu12121/CodeModernBERT-Owl-3.0", tokenizer="Shuu12121/CodeModernBERT-Owl-3.0")
fill_mask("def square(x): return x * <mask>")

📊 不同语言的 MRR 对比（平均池化）

实验使用 CodeSearchNet 测试集进行。
所有评估的候选池大小固定为 100。
评估方法：模型嵌入的 平均池化。

语言	CodeModernBERT-Owl-3.0	CodeT5+	GraphCodeBERT	CodeBERTa-small	CodeBERT
Python	0.8814	0.8048	0.3496	0.6123	0.0927
Java	0.8673	0.7853	0.3299	0.4738	0.0816
JavaScript	0.8805	0.7111	0.2581	0.3593	0.0692
PHP	0.8788	0.7893	0.2507	0.4533	0.0623
Ruby	0.8805	0.7201	0.3186	0.4418	0.0762
Go	0.8782	0.7577	0.4453	0.5338	0.0856