开源code_trans_t5_small模型 - 自动生成高质量Git提交消息描述

首页

Code Trans T5 Small Commit Generation Transfer Learning Finetune

由 SEBIS 开发

基于T5-small架构的Git提交消息生成模型，通过迁移学习和微调优化提交变更描述生成

文本生成 #Git提交生成 #代码变更摘要 #T5迁移学习

下载量 32

发布时间 : 3/2/2022

模型简介

该模型专门用于生成Git代码变更的提交消息，支持处理原始或分词后的代码变更内容，对分词后内容表现更佳

模型特点

迁移学习预训练

使用7个软件工程领域数据集进行迁移学习预训练，提升模型理解代码变更的能力

微调优化

在Java代码变更数据集上进行专门微调，优化提交消息生成效果

分词优化

对分词后的代码变更内容处理效果更佳，内置独立SentencePiece词汇模型

模型能力

自动生成Git提交消息

处理代码变更差异

支持二进制文件变更描述

使用案例

版本控制

自动化提交消息生成

根据代码变更自动生成规范的提交说明

BLEU得分44.41(Java)

代码审查辅助

通过生成的提交消息快速理解代码变更内容

🚀 CodeTrans模型：用于生成Git提交信息

CodeTrans模型基于t5 small架构，在Git提交数据上进行预训练。它能根据代码变更智能生成准确的Git提交信息，提升开发效率。该模型最初发布于此仓库。

🚀 快速开始

本模型基于 t5-small 架构，拥有自己的SentencePiece词汇模型。它在软件开发领域的7个无监督数据集上进行了迁移学习预训练，然后针对Java提交变更的Git提交信息生成任务进行了微调。

如何使用

以下是使用Transformers的SummarizationPipeline调用此模型生成Git提交信息的示例代码：

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_commit_generation_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_commit_generation_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "new file mode 100644 index 000000000 . . 892fda21b Binary files / dev / null and b / src / plugins / gateway / lib / joscar . jar differ"
pipeline([tokenized_code])

你可以在 colab notebook 中运行此示例。

✨ 主要特性

广泛适用性：可用于为Git提交变更生成提交信息，也能在其他相关任务上进行微调。
性能优势：对未解析和未分词的提交变更也能处理，若输入为分词后的变更，性能更佳。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelWithLMHead, SummarizationPipeline

pipeline = SummarizationPipeline(
    model=AutoModelWithLMHead.from_pretrained("SEBIS/code_trans_t5_small_commit_generation_transfer_learning_finetune"),
    tokenizer=AutoTokenizer.from_pretrained("SEBIS/code_trans_t5_small_commit_generation_transfer_learning_finetune", skip_special_tokens=True),
    device=0
)

tokenized_code = "new file mode 100644 index 000000000 . . 892fda21b Binary files / dev / null and b / src / plugins / gateway / lib / joscar . jar differ"
pipeline([tokenized_code])

📚 详细文档

训练数据

有监督训练任务的数据集可从此链接下载。

训练过程

迁移学习预训练

模型在单个TPU Pod V3 - 8上进行了总计500,000步的训练，序列长度为512（批量大小为4096）。它共有约2.2亿个参数，采用编码器 - 解码器架构进行训练。预训练使用的优化器是AdaFactor，学习率采用逆平方根调度。

微调

模型在单个TPU Pod V2 - 8上进行了总计10,000步的微调，序列长度为512（批量大小为256），仅使用包含提交变更的数据集。

评估结果

在Git提交信息生成任务中，不同模型在不同编程语言上的评估结果（BLEU分数）如下：

语言 / 模型	Java
CodeTrans - ST - Small	39.61
CodeTrans - ST - Base	38.67
CodeTrans - TF - Small	44.22
CodeTrans - TF - Base	44.17
CodeTrans - TF - Large	44.41
CodeTrans - MT - Small	36.17
CodeTrans - MT - Base	39.25
CodeTrans - MT - Large	41.18
CodeTrans - MT - TF - Small	43.96
CodeTrans - MT - TF - Base	44.19
CodeTrans - MT - TF - Large	44.34
现有最优模型	32.81