t5-base-japanese开源模型 - 基于日语语料库，助力多类文本生成任务

首页

T5 Base Japanese

由 sonoisa 开发

基于日语语料库预训练的T5（文本到文本转换Transformer）模型，适用于多种文本生成任务。

大型语言模型日语#日语文本生成 #高精度分类 #维基百科预训练

下载量 13.85k

发布时间 : 3/2/2022

模型简介

这是一个基于日语语料库预训练的T5模型，主要用于文本到文本生成任务。模型经过大规模日语语料库训练，支持多种下游任务的微调。

模型特点

高效性能

与多语言T5模型相比，体积缩小25%，准确率高出约6个百分点。

大规模预训练

使用了约100GB的日语语料库进行预训练，包括维基百科、OSCAR和CC-100。

多任务支持

通过微调可支持多种文本生成任务，如分类、问答等。

模型能力

文本生成

文本分类

问答系统

使用案例

新闻分类

livedoor新闻分类

使用livedoor新闻语料库进行新闻文章类型预测任务。

准确率达到97%，F1分数为0.97。

问答系统

JSQuAD问答任务

在JGLUE基准测试中的JSQuAD任务上表现优异。

EM=0.900, F1=0.945。

🚀 日本语T5预训练模型

这是一个基于日本语语料库进行预训练的T5（文本到文本转移变换器）模型。该模型使用了约100GB的日本语语料库进行预训练，具备强大的语言理解和生成能力。不过，它仅完成了预训练阶段，若要应用于特定任务，还需要进行微调。同时，由于使用了大规模语料库，模型可能存在因训练数据内容偏差而导致的输出结果偏差问题，使用时请务必注意。

🚀 快速开始

此日本语T5预训练模型使用了以下日本语语料库（约100GB）进行预训练：

Wikipedia的日本语转储数据（截至2020年7月6日）
OSCAR的日本语语料库
CC-100的日本语语料库

该模型仅进行了预训练，若要用于特定任务，需要进行微调。同时，由于使用了大规模语料库，模型可能存在因训练数据内容偏差而导致的输出结果偏差（如不道德、有害或存在偏见）问题。请在使用时充分考虑这一潜在问题，仅将其用于不会造成危害的用途。

在SentencePiece分词器的训练中，使用了上述Wikipedia的全量数据。

✨ 主要特性

针对性预训练：基于日本语语料库进行预训练，更适合日本语相关任务。
模型优势：在livedoor新闻分类任务中，相较于Google的多语言T5模型，本模型参数少25%，精度高约6个百分点。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

迁移学习示例代码

迁移学习的示例代码可参考：https://github.com/sonoisa/t5-japanese

📚 详细文档

基准测试

livedoor新闻分类任务

使用livedoor新闻语料库进行新闻文章的类别预测任务，本模型的精度如下：

label	precision	recall	f1-score	support
0	0.96	0.94	0.95	130
1	0.98	0.99	0.99	121
2	0.96	0.96	0.96	123
3	0.86	0.91	0.89	82
4	0.96	0.97	0.97	129
5	0.96	0.96	0.96	141
6	0.98	0.98	0.98	127
7	1.00	0.99	1.00	127
8	0.99	0.97	0.98	120
accuracy			0.97	1100
macro avg	0.96	0.96	0.96	1100
weighted avg	0.97	0.97	0.97	1100

对比模型：多语言T5 (google/mt5-small，参数数量为300M)

label	precision	recall	f1-score	support
0	0.91	0.88	0.90	130
1	0.84	0.93	0.89	121
2	0.93	0.80	0.86	123
3	0.82	0.74	0.78	82
4	0.90	0.95	0.92	129
5	0.89	0.89	0.89	141
6	0.97	0.98	0.97	127
7	0.95	0.98	0.97	127
8	0.93	0.95	0.94	120
accuracy			0.91	1100
macro avg	0.91	0.90	0.90	1100
weighted avg	0.91	0.91	0.91	1100