code_trans_t5_large开源模型 - 免费部署助力Python代码摘要高效生成

首页

Code Trans T5 Large Source Code Summarization Python Transfer Learning Finetune

由 SEBIS 开发

基于t5-large架构的预训练模型，专注于Python代码摘要生成任务

文本生成 #Python代码摘要 #迁移学习优化 #大参数量模型

下载量 29

发布时间 : 3/2/2022

模型简介

该模型针对Python代码函数进行优化，能够生成Python函数的描述性摘要，支持未解析和未分词的Python代码，但对分词后的代码表现更优。

模型特点

迁移学习预训练

在软件工程领域的7个无监督数据集上进行预训练，增强了模型对代码的理解能力

Python代码优化

专门针对Python代码进行优化，在分词后的Python函数上表现最佳

大规模训练

在TPU Pod上完成24万步预训练和100步微调，确保模型性能

模型能力

Python代码摘要生成

代码理解

文本生成

使用案例

软件开发

自动生成函数文档

为Python函数自动生成描述性文档

BLEU得分13.37（Python代码）

代码理解辅助

帮助开发者快速理解复杂代码的功能

🚀 CodeTrans模型用于Python源代码摘要生成

CodeTrans模型基于t5-large架构，在Python编程语言上进行了预训练，可用于生成Python函数的描述，也能在其他Python代码任务上进行微调。该模型首次发布于this repository，在标记化的Python代码函数上进行训练，因此在处理标记化的Python函数时效果最佳。

🚀 快速开始

模型使用示例

以下是如何使用Transformers的SummarizationPipeline来生成Python函数文档的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code =  '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

你可以在colab notebook中运行此示例。

✨ 主要特性

架构基础：基于t5-large模型构建，拥有自己的SentencePiece词汇模型。
预训练：在软件开发领域的7个无监督数据集上进行了迁移学习预训练。
微调：针对Python代码片段的源代码摘要生成任务进行了微调。
灵活性：可以处理未解析和未标记化的Python代码，不过处理标记化的代码时性能更佳。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_large_source_code_summarization_python_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code =  '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

高级用法

文档未提供高级用法示例，暂不展示。

📚 详细文档

模型描述

此CodeTrans模型基于t5-large模型，拥有自己的SentencePiece词汇模型。它在软件开发领域的7个无监督数据集上进行了迁移学习预训练，然后针对Python代码片段的源代码摘要生成任务进行了微调。

预期用途和限制

该模型可用于生成Python函数的描述，也能在其他Python代码任务上进行微调。它可以处理未解析和未标记化的Python代码，但处理标记化的代码时性能更佳。

训练数据

有监督训练任务的数据集可从Link下载。

训练过程

迁移学习预训练

模型在单个TPU Pod V3 - 8上总共训练了240,000步，使用序列长度为512（批量大小为4096）。它总共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，学习率采用逆平方根调度。

微调

该模型随后在单个TPU Pod V2 - 8上针对仅包含Python代码的数据集进行了100步的微调，使用序列长度为512（批量大小为256）。

评估结果

对于源代码摘要生成任务，不同模型在不同编程语言上取得了以下BLEU分数结果：

语言 / 模型	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50