C

Codet5p 770m

由 Salesforce 开发
CodeT5+是一个开源代码大语言模型家族,采用编码器-解码器架构,支持多种模式,适用于广泛的代码理解与生成任务。
下载量 4,801
发布时间 : 5/13/2023
模型介绍
内容详情
替代品

模型简介

CodeT5+是一个新型开源代码大语言模型家族,采用编码器-解码器架构,可灵活支持多种模式(包括纯编码器、纯解码器和编码器-解码器),适用于广泛的代码理解与生成任务。

模型特点

多样化的预训练任务
通过片段去噪、因果语言建模、对比学习和文本-代码匹配等多种预训练任务,从单模态代码数据和双模态代码-文本数据中学习丰富表征。
计算高效预训练
采用创新的计算高效预训练方法,通过冻结现成大语言模型初始化组件,高效扩展模型规模。
灵活支持多种模式
支持纯编码器、纯解码器和编码器-解码器多种模式,适用于广泛的代码理解与生成任务。

模型能力

代码理解
代码生成
文本-代码检索
行级代码补全
检索增强代码生成

使用案例

代码生成
函数补全
根据函数签名自动补全函数体
在HumanEval基准的零样本文本-代码生成任务中,InstructCodeT5+ 16B以35.0% pass@1和54.5% pass@10刷新了开源模型记录。
代码理解
代码检索
根据自然语言描述检索相关代码片段
在8个文本-代码检索任务上平均MRR提升3.2。