M

Modularstarencoder

由 modularStarEncoder 开发
基于The Stack v2数据集预训练的10亿参数代码编码器,采用模块化设计和双向自注意力机制
下载量 147
发布时间 : 2/18/2025
模型介绍
内容详情
替代品

模型简介

专为代码处理设计的预训练编码器,支持600+种编程语言,具有多出口点模块化架构和2048token的上下文长度

模型特点

模块化设计
包含五个出口点,支持根据下游任务进行多出口微调
高效架构
将StarCoder-2的150亿参数缩减至10亿,采用分组查询注意力(GQA)和双向自注意力机制
长上下文支持
最大输入长度扩展至2048token,优于前代代码编码器
多语言支持
支持600+种编程语言的代码处理
训练优化
采用MLM+上下文内损失的多层损失函数,使用FlashAttention V2加速

模型能力

代码片段嵌入
代码表征学习
多语言代码处理
长序列代码分析

使用案例

代码分析
代码相似性检测
通过嵌入表示比较代码片段的语义相似度
代码搜索增强
为代码搜索引擎提供高质量的嵌入表示
编程辅助
IDE智能补全
作为底层模型支持代码自动补全功能