CodeT5-large开源代码模型 - 免费助力代码理解与高效生成任务

首页

Codet5 Large

由 Salesforce 开发

CodeT5是基于标识符感知的统一预训练编码器-解码器模型，专注于代码理解与生成任务。

大型语言模型

Transformers

开源协议:Bsd-3-clause #代码生成 #多语言编程 #标识符感知

下载量 3,796

发布时间 : 7/6/2022

模型简介

CodeT5是一个编码器-解码器语言模型家族，专门设计用于代码理解和生成任务。大尺寸版本包含770M参数，在多种编程语言上进行了预训练。

模型特点

标识符感知预训练

模型在预训练阶段特别关注代码中的标识符信息，提高了对代码结构的理解能力

多语言支持

支持六种主流编程语言（Ruby/JavaScript/Go/Python/Java/PHP）

统一架构

采用编码器-解码器统一架构，同时支持代码理解和生成任务

模型能力

代码自动补全

代码生成

代码理解

代码翻译

使用案例

软件开发辅助

代码自动补全

在IDE中提供智能代码补全建议

代码生成

根据自然语言描述生成代码片段

教育

编程学习辅助

帮助学生理解代码结构和逻辑

🚀 CodeT5 (大尺寸模型 770M)

CodeT5是一系列用于代码处理的编码器 - 解码器语言模型，旨在解决代码理解和生成的相关问题，为开发者提供强大的代码处理能力。

🚀 快速开始

此模型可使用 T5ForConditionalGeneration 功能轻松加载：

from transformers import AutoTokenizer, T5ForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codet5-large")
model = T5ForConditionalGeneration.from_pretrained("Salesforce/codet5-large")
text = "def greet(user): print(f'hello <extra_id_0>!')"
input_ids = tokenizer(text, return_tensors="pt").input_ids

# simply generate a single sequence
generated_ids = model.generate(input_ids, max_length=8)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

✨ 主要特性

CodeT5是一系列用于代码的编码器 - 解码器语言模型，来自论文 CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation 。
本仓库包含的检查点为 CodeT5-large (770M)，由论文 CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning 引入。

📚 详细文档

训练数据

CodeT5-large 在 CodeSearchNet 数据集上进行预训练，该数据集包含六种编程语言（Ruby/JavaScript/Go/Python/Java/PHP）。更多详细信息请参阅论文的第4.1节。

训练过程

CodeT5-large 使用掩码跨度预测目标进行了150个周期的预训练。更多详细信息请参阅论文的第4.1节。

评估结果

我们在 CodeXGLUE 基准测试中验证了使用简化策略预训练的此检查点的有效性。更多详细信息请参阅论文的附录A.1。

道德考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时遵循最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的更多指导，请参阅我们的AUP和AI AUP。

📄 许可证

本项目采用BSD 3条款许可证。

📚 引用信息

@inproceedings{CodeT52021,
  author    = {Yue Wang and Weishi Wang and Shafiq R. Joty and Steven C. H. Hoi},
  title     = {CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation},
  booktitle = {EMNLP},
  pages     = {8696--8708},
  publisher = {Association for Computational Linguistics},
  year      = {2021}
}

@article{CodeRL2022
  author    = {Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi},
  title     = {CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning},
  journal   = {arXiv preprint},
  volume    = {abs/2207.01780},
  year      = {2022}
}