code_trans_t5_base_code_documentation_generation_java开源模型

首页

Code Trans T5 Base Code Documentation Generation Java

由 SEBIS 开发

基于T5架构的Java代码文档生成模型，专门用于为Java函数生成描述性文档

大型语言模型 #Java函数摘要 #代码文档自动化 #T5架构优化

下载量 22

发布时间 : 3/2/2022

模型简介

该模型针对Java编程语言进行预训练，能够根据输入的Java函数代码自动生成相应的文档说明。

模型特点

Java代码专用优化

专门针对Java编程语言进行预训练和优化

分词处理增强

对经过分词的Java函数处理效果最佳

单任务训练

专注于代码文档生成单一任务，性能更优

模型能力

Java函数文档生成

Java代码理解

文本摘要生成

使用案例

软件开发

自动生成API文档

为Java库函数自动生成API文档说明

BLEU评分17.17(Java)

代码理解辅助

帮助开发者理解复杂Java函数的用途

🚀 CodeTrans模型：用于Java代码文档生成

CodeTrans模型基于t5基础模型架构，在Java编程语言上进行了预训练。它首次发布于此仓库。该模型在经过分词处理的Java代码函数上进行训练，因此在处理分词后的Java函数时表现最佳。

🚀 快速开始

本部分将引导你快速了解如何使用CodeTrans模型进行Java代码文档生成。

✨ 主要特性

模型架构：基于t5-base模型，拥有自己的SentencePiece词汇模型。
训练方式：在CodeSearchNet Corpus Java数据集上进行单任务训练。
应用场景：可用于生成Java函数的描述，也可在其他Java代码任务上进行微调。
代码适应性：能够处理未解析和未分词的Java代码，但对分词后的代码处理效果更佳。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

以下是如何使用Transformers的SummarizationPipeline来生成Java函数文档的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_base_code_documentation_generation_java", skip_special_tokens=True),
    device=0
)

tokenized_code = "public static < T , U > Function < T , U > castFunction  ( Class < U > target ) { return new CastToClass < T , U > ( target ) ; }"
pipeline([tokenized_code])

你可以在 colab notebook 中运行此示例。

📚 详细文档

模型描述

此CodeTrans模型基于t5-base模型构建，具备独立的SentencePiece词汇模型，并在CodeSearchNet Corpus Java数据集上完成单任务训练。

预期用途与限制

该模型可用于生成Java函数的描述，也能在其他Java代码任务上进行微调。它可以处理未解析和未分词的Java代码，不过若Java代码经过分词处理，模型性能会更优。

🔧 技术细节

训练数据

有监督训练任务的数据集可从此处下载。

评估结果

在代码文档生成任务中，不同模型在不同编程语言上的评估结果（以BLEU分数衡量）如下：

语言 / 模型	Python	Java	Go	Php	Ruby	JavaScript
CodeTrans-ST-Small	17.31	16.65	16.89	23.05	9.19	13.7
CodeTrans-ST-Base	16.86	17.17	17.16	22.98	8.23	13.17
CodeTrans-TF-Small	19.93	19.48	18.88	25.35	13.15	17.23
CodeTrans-TF-Base	20.26	20.19	19.50	25.84	14.07	18.25
CodeTrans-TF-Large	20.35	20.06	19.54	26.18	14.94	18.98
CodeTrans-MT-Small	19.64	19.00	19.15	24.68	14.91	15.26
CodeTrans-MT-Base	20.39	21.22	19.43	26.23	15.26	16.11
CodeTrans-MT-Large	20.18	21.87	19.38	26.08	15.00	16.23
CodeTrans-MT-TF-Small	19.77	20.04	19.36	25.55	13.70	17.24
CodeTrans-MT-TF-Base	19.77	21.12	18.86	25.79	14.24	18.62
CodeTrans-MT-TF-Large	18.94	21.42	18.77	26.20	14.19	18.83
现有最优模型	19.06	17.65	18.07	25.16	12.16	14.90