G

Granite 3b Code Base 2k

由 ibm-granite 开发
Granite-3B-Code-Base-2K是IBM研究院开发的专为代码生成任务设计的仅解码器模型,具有3B参数规模,支持116种编程语言。
下载量 711
发布时间 : 4/23/2024

模型简介

该模型采用两阶段训练策略,第一阶段在4万亿代码标记上训练,第二阶段在5000亿高质量代码和自然语言标记上训练,专注于代码生成、解释和修复等任务。

模型特点

两阶段训练策略
第一阶段在广泛编程语言数据上预训练,第二阶段在精选高质量数据上微调,提升推理和指令遵循能力。
激进的去重策略
采用精确和模糊去重技术,有效去除重复代码内容,提高数据质量。
全面的安全过滤
应用HAP内容过滤、PII删除和恶意软件扫描,降低模型生成有害内容的风险。

模型能力

代码生成
代码解释
代码修复
生成单元测试
生成文档
解决技术债务
漏洞检测
代码翻译

使用案例

软件开发
Python函数生成
根据自然语言描述自动生成Python函数代码
在MBPP数据集上通过率@1达36%
代码修复
自动修复存在错误的代码片段
在HumanEval修复任务中Python修复通过率18.3%
教育
代码解释
为复杂代码段生成自然语言解释
在HumanEval解释任务中Python解释通过率25%
AIbase
智启未来,您的人工智能解决方案智库
简体中文