CodeT5-small开源代码模型 - 免费助力代码理解与高效生成任务

首页

Codet5 Small

由 Salesforce 开发

CodeT5是一个统一的预训练编码器-解码器Transformer模型，专注于代码理解与生成任务，特别擅长利用代码标识符的语义信息。

大型语言模型

Transformers

开源协议:Apache-2.0 #代码理解生成 #标识符感知 #多编程语言

下载量 22.03k

发布时间 : 3/2/2022

模型简介

CodeT5是一个标识符感知的统一预训练编码器-解码器模型，支持代码理解和生成任务。它通过创新的预训练任务和双模态生成，实现了编程语言与自然语言的更好对齐。

模型特点

标识符感知预训练

能够区分代码中的标识符并在掩码时恢复，更好地捕捉代码语义

统一框架

支持代码理解与生成任务，并支持多任务学习

双模态生成

利用代码注释实现更好的自然语言-编程语言对齐

模型能力

代码摘要生成

代码生成

代码翻译

代码优化

代码缺陷检测

代码克隆检测

使用案例

软件开发

代码自动补全

根据部分代码片段预测完整代码

提高开发效率

代码文档生成

自动为代码生成说明文档

提升代码可维护性

代码质量

缺陷检测

识别代码中的潜在错误

提高代码质量

🚀 CodeT5（小型模型）

CodeT5是一个预训练的代码处理模型，它能更好地利用开发者指定标识符所传达的代码语义，可无缝支持代码理解和生成任务，还允许进行多任务学习。

🚀 快速开始

本仓库仅包含预训练模型，你可以使用该模型进行掩码跨度预测，如下面的代码示例所示。不过，该模型的主要用途是针对你感兴趣的下游任务进行微调，例如代码摘要、代码生成、代码翻译、代码优化、代码缺陷检测和代码克隆检测等。你可以在模型中心查找针对你感兴趣任务的微调版本。

如何使用

以下是使用该模型的示例代码：

from transformers import RobertaTokenizer, T5ForConditionalGeneration

tokenizer = RobertaTokenizer.from_pretrained('Salesforce/codet5-small')
model = T5ForConditionalGeneration.from_pretrained('Salesforce/codet5-small')

text = "def greet(user): print(f'hello <extra_id_0>!')"
input_ids = tokenizer(text, return_tensors="pt").input_ids

# simply generate a single sequence
generated_ids = model.generate(input_ids, max_length=10)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))
# this prints "user: {user.name}"

✨ 主要特性

从论文摘要可知：“我们提出了CodeT5，这是一个统一的预训练编码器 - 解码器Transformer模型，它能更好地利用开发者指定标识符所传达的代码语义。我们的模型采用统一框架，无缝支持代码理解和生成任务，并允许进行多任务学习。此外，我们提出了一种新颖的标识符感知预训练任务，使模型能够区分哪些代码标记是标识符，并在它们被掩码时恢复它们。此外，我们提出利用用户编写的代码注释，通过双峰双生成任务实现更好的自然语言 - 编程语言对齐。综合实验表明，CodeT5在代码缺陷检测和克隆检测等理解任务，以及包括编程语言 - 自然语言、自然语言 - 编程语言和编程语言 - 编程语言等各个方向的生成任务上，显著优于先前的方法。进一步分析表明，我们的模型能够更好地从代码中捕获语义信息。”

📦 安装指南

文档未提及安装步骤，暂无法提供。

💻 使用示例

基础用法

from transformers import RobertaTokenizer, T5ForConditionalGeneration

tokenizer = RobertaTokenizer.from_pretrained('Salesforce/codet5-small')
model = T5ForConditionalGeneration.from_pretrained('Salesforce/codet5-small')

text = "def greet(user): print(f'hello <extra_id_0>!')"
input_ids = tokenizer(text, return_tensors="pt").input_ids

# simply generate a single sequence
generated_ids = model.generate(input_ids, max_length=10)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))
# this prints "user: {user.name}"

📚 详细文档

训练数据

CodeT5模型在CodeSearchNet Husain等人，2019上进行预训练。此外，作者从BigQuery1收集了两个C/CSharp数据集，以确保所有下游任务的编程语言与预训练数据有重叠。总共约835万个实例用于预训练。

训练过程

预处理

该模型使用特定于代码的字节对编码（BPE）分词器。可以使用RobertaTokenizer和本仓库中的文件为模型准备文本（或代码）。

评估结果

有关几个下游基准测试的评估结果，请参考论文。

伦理考虑

此版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游目的设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的使用协议和人工智能使用协议。

BibTeX引用

@misc{wang2021codet5,
      title={CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation}, 
      author={Yue Wang and Weishi Wang and Shafiq Joty and Steven C. H. Hoi},
      year={2021},
      eprint={2109.00859},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}