code_trans_t5_base开源模型 - 免费部署实现Python代码摘要生成及多任务处理

首页

Code Trans T5 Base Source Code Summarization Python Multitask

由 SEBIS 开发

基于T5架构的预训练模型，专为Python代码摘要生成设计，支持多任务处理

大型语言模型 #Python代码摘要 #多任务预训练 #T5架构优化

下载量 57

发布时间 : 3/2/2022

模型简介

该模型用于生成Python函数的功能描述，支持处理原始代码和分词后的代码，经分词的代码处理效果更优

模型特点

多任务训练框架

在13个监督任务和7个无监督数据集上进行训练，增强模型泛化能力

分词优化

对分词后的Python函数处理效果最佳，同时支持原始代码处理

高性能架构

基于t5-base模型，配备独立SentencePiece词汇模型

模型能力

Python代码摘要生成

多任务代码处理

源代码分析

使用案例

软件开发

函数文档自动生成

为Python函数自动生成功能描述文档

BLEU评分达13.37（Python语言）

代码理解辅助

帮助开发者快速理解复杂代码段的功能

🚀 CodeTrans模型用于Python源代码摘要生成

本项目是一个基于t5-base架构，针对Python编程语言进行预训练的模型，可用于生成Python代码的描述摘要。它首次发布于此仓库，在经过标记化处理的Python代码函数上进行训练，因此在处理这类数据时能发挥最佳性能。

✨ 主要特性

基于t5-base模型架构，拥有自己的SentencePiece词汇模型。
采用多任务训练，涵盖软件开发领域的13个监督任务和7个无监督数据集。
可用于生成Python函数的描述，也能在其他Python代码任务上进行微调。
能处理未解析和未标记化的Python代码，但对标记化代码的处理效果更佳。

📦 安装指南

文档未提及具体安装步骤，可参考原仓库 CodeTrans 获取安装相关信息。

💻 使用示例

基础用法

以下是使用Transformers的SummarizationPipeline调用此模型生成Python函数文档的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_source_code_summarization_python_multitask", skip_special_tokens=True),
    device=0
)

tokenized_code = '''with open ( CODE_STRING , CODE_STRING ) as in_file : buf = in_file . readlines ( )  with open ( CODE_STRING , CODE_STRING ) as out_file : for line in buf :          if line ==   " ; Include this text   " :              line = line +   " Include below  "          out_file . write ( line ) '''
pipeline([tokenized_code])

你可以在 colab notebook 中运行该示例。

📚 详细文档

模型描述

此CodeTrans模型基于t5-base模型构建，拥有自己的SentencePiece词汇模型。它在软件开发领域的13个监督任务和7个无监督数据集上进行了多任务训练。

预期用途和限制

该模型可用于生成Python函数的描述，也可在其他Python代码任务上进行微调。它能处理未解析和未标记化的Python代码，但如果代码经过标记化处理，模型性能会更好。

训练数据

有监督训练任务的数据集可从此处下载。

训练过程

多任务预训练

模型在单个TPU Pod V3 - 8上总共训练了260,000步，使用序列长度为512（批量大小为4096）。模型总共约有2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，并采用平方根倒数学习率调度。

评估结果

在源代码摘要生成任务中，不同模型在不同编程语言上取得了以下BLEU分数：

语言 / 模型	Python	SQL	C#
CodeTrans - ST - Small	8.45	17.55	19.74
CodeTrans - ST - Base	9.12	15.00	18.65
CodeTrans - TF - Small	10.06	17.71	20.40
CodeTrans - TF - Base	10.94	17.66	21.12
CodeTrans - TF - Large	12.41	18.40	21.43
CodeTrans - MT - Small	13.11	19.15	22.39
CodeTrans - MT - Base	13.37	19.24	23.20
CodeTrans - MT - Large	13.24	19.40	23.57
CodeTrans - MT - TF - Small	12.10	18.25	22.03
CodeTrans - MT - TF - Base	10.64	16.91	21.40
CodeTrans - MT - TF - Large	12.14	19.98	21.10
CODE - NN	--	18.40	20.50