C

Codemorph ModernBERT

由 Shuu12121 开发
专为代码搜索与代码理解任务从头训练的预训练模型,支持最大2048个token的序列长度,在Python代码搜索任务中表现突出。
下载量 110
发布时间 : 2/19/2025
模型介绍
内容详情
替代品

模型简介

基于ModernBERT基础架构,用于代码搜索、代码理解和代码补全任务,采用CodeSearchNet数据集训练,深入理解代码语法与注释关联。

模型特点

长序列支持
可处理长达2048个token的序列,适用于冗长代码和复杂函数
卓越的代码搜索性能
采用面向6种编程语言的SentencePiece分词器,搜索精度显著超越前代模型
专项训练模型
基于CodeSearchNet数据集从头训练,深入理解代码语法与注释关联

模型能力

代码搜索
代码理解
代码补全
代码语义理解

使用案例

代码搜索
Python代码搜索
在Python代码库中搜索相关函数或代码片段
平均倒数排名(MRR)达到0.8172
代码理解
代码注释生成
根据代码片段生成对应的注释