CodeT5+ 220M开源代码模型 - 免费部署，专用于高效生成Python代码

首页

Codet5p 220m Py

由 Salesforce 开发

CodeT5+是一个开源代码大语言模型家族，采用编码器-解码器架构，支持多种代码理解与生成任务。本模型为220M参数版本，专门针对Python代码生成进行了优化。

大型语言模型

Transformers

开源协议:Bsd-3-clause #Python代码生成 #多语言代码理解 #零样本学习

下载量 961

发布时间 : 5/15/2023

模型简介

CodeT5+是一个新型开源代码大语言模型家族，采用灵活的编码器-解码器架构，支持代码理解与生成任务。本检查点基于Python代码进行了额外调优。

模型特点

多任务支持

支持代码理解与生成多种任务，包括代码补全、代码检索和代码生成等

Python优化

专门针对Python代码生成进行了额外训练，优化了Python代码生成能力

高效预训练

采用计算高效的预训练方法，通过冻结现成大语言模型组件进行高效扩展

多语言支持

支持9种编程语言，包括C、C++、C#、Go、Java、JavaScript、PHP、Python和Ruby

模型能力

代码生成

代码补全

代码理解

文本-代码检索

代码翻译

使用案例

软件开发

代码自动补全

在IDE中提供智能代码补全功能

提高开发效率，减少编码错误

代码生成

根据自然语言描述生成代码片段

HumanEval零样本测试中达到12.0% pass@1

教育

编程教学辅助

帮助学生理解代码结构和逻辑

🚀 CodeT5+ 220M（在Python上进一步微调）

CodeT5+ 是一个新的开源代码大语言模型家族，采用编码器 - 解码器架构，可灵活在不同模式下运行，支持广泛的代码理解和生成任务，为代码开发提供强大助力。

🚀 快速开始

本模型可使用 T5ForConditionalGeneration 轻松加载，并使用与原始 CodeT5 相同的分词器。

基础用法

from transformers import T5ForConditionalGeneration, AutoTokenizer

checkpoint = "Salesforce/codet5p-220m-py"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = T5ForConditionalGeneration.from_pretrained(checkpoint).to(device)

inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_length=10)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# ==>     print('Hello World!')

✨ 主要特性

多模式灵活运行：CodeT5+ 具有编码器 - 解码器架构，可在 仅编码器、仅解码器 和 编码器 - 解码器 等不同模式下灵活操作，支持广泛的代码理解和生成任务。
多样化预训练任务：与原始 CodeT5 家族相比，CodeT5+ 采用了包括 跨度去噪、因果语言建模、对比学习 和 文本 - 代码匹配 等多样化的预训练任务，从单模态代码数据和双模态代码 - 文本数据中学习丰富的表示。
高效预训练方法：采用简单有效的 计算高效预训练 方法，使用冻结的现成大语言模型（如 CodeGen）初始化模型组件，有效扩展模型规模。
指令调优：遵循 Code Alpaca 进行指令调优，使模型与自然语言指令对齐。

📚 详细文档

预训练数据

此检查点在 github-code 数据集去重版本的更严格许可子集上进行训练。数据预处理时仅保留许可宽松的代码（“mit”、“apache - 2”、“bsd - 3 - clause”、“bsd - 2 - clause”、“cc0 - 1.0”、“unlicense”、“isc”）。支持的语言（共 9 种）如下：c、c++、c - sharp、go、java、javascript、php、python、ruby。

训练过程

此检查点首先在第一阶段预训练中对多语言单模态代码数据进行训练，包括 跨度去噪 和两种变体的 因果语言建模 等多样化预训练任务。之后，在 Python 子集上以因果语言建模为目标再训练一个周期，以更好地适应 Python 代码生成。更多详细信息请参考论文。

评估结果

CodeT5+ 模型在各种设置（零样本、微调和 指令调优）下的广泛代码理解和生成任务中进行了全面评估。具体而言，与现有最优基线相比，CodeT5+ 在许多下游任务中取得了显著的性能提升，例如：

8 个文本到代码检索任务（平均 MRR 提高 3.2）
2 个行级代码补全任务（平均精确匹配提高 2.1）
2 个检索增强代码生成任务（平均 BLEU - 4 提高 5.8）

在 MathQA - Python 和 GSM8K - Python 上的 2 个数学编程任务中，参数小于十亿的 CodeT5+ 模型显著优于许多参数高达 137B 的大语言模型。特别是在 HumanEval 基准的零样本文本到代码生成任务中，InstructCodeT5+ 16B 相对于其他开源代码大语言模型创造了新的最优结果，pass@1 为 35.0%，pass@10 为 54.5%，甚至超过了闭源的 OpenAI code - cushman - 001 模型。

具体到这个检查点，在零样本设置下，它在 HumanEval 上的 pass@1 达到 12.0%，优于许多更大的大语言模型，如 Incoder 1.3B 的 8.9%、GPT - Neo 2.7B 的 6.4% 和 GPT - J 6B 的 11.6%。

BibTeX 引用

@article{wang2023codet5plus,
  title={CodeT5+: Open Code Large Language Models for Code Understanding and Generation},
  author={Wang, Yue and Le, Hung and Gotmare, Akhilesh Deepak and Bui, Nghi D.Q. and Li, Junnan and Hoi, Steven C. H.},
  journal={arXiv preprint},
  year={2023}
}

伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导，请参考我们的 AUP 和 AI AUP。