t5-base-dutch开源荷兰语预训练模型 - 可助力荷兰语相关内容处理

首页

T5 Base Dutch

由 yhavinga 开发

这是一个基于T5架构的荷兰语预训练模型，拥有2.22亿参数，在清理过的荷兰语mC4数据集上训练完成。

大型语言模型其他开源协议:Apache-2.0 #荷兰语文本生成 #多任务微调基础 #512序列长度

下载量 102

发布时间 : 3/2/2022

模型简介

该模型采用T5架构，通过掩码语言建模目标进行预训练，适用于需要微调的下游NLP任务。

模型特点

荷兰语优化

专门针对荷兰语进行预训练，使用清理过的荷兰语mC4数据集

T5架构

采用标准的T5-base架构，支持文本到文本转换任务

高效预训练

在TPU上训练1个周期，耗时2天9小时，处理了350亿标记

模型能力

文本生成

文本摘要

机器翻译

文本分类

使用案例

文本处理

新闻摘要

可用于生成荷兰语新闻文章的摘要

评估Rouge1分数达0.70

英荷翻译

经过微调后可用于英语和荷兰语之间的翻译

评估Bleu分数达0.78

🚀 t5-base-dutch

t5-base-dutch 是一个基于荷兰语的预训练模型，由 Yeb Havinga 和 Dat Nguyen 在 Hugging Face 社区周期间开发。该模型可用于文本摘要和翻译等自然语言处理任务。

🚀 快速开始

本模型是预训练的 T5 模型，在用于下游任务之前需要进行微调。右侧的推理小部件已关闭。若要查看荷兰语 CNN 摘要模型的演示，请访问 Hugging Face Spaces 中的 Netherformer 📰 示例应用程序！

✨ 主要特性

参数规模：此 t5 模型拥有 222M 个参数。
预训练目标：在数据集 mc4_nl_cleaned 配置 full 上，以掩码语言建模（去噪令牌跨度损坏）为目标进行预训练。
训练配置：训练了 1 个周期，持续时间为 2 天 9 小时，序列长度为 512，批量大小为 128，总步数为 527500（处理了 35B 个令牌）。
评估指标：预训练评估损失和准确率分别为 1.38 和 0.70。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

文档中未提供代码示例，故跳过此章节。

📚 详细文档

分词器

该模型使用了一个区分大小写的 SentencePiece 分词器，配置了 Nmt, NFKC, Replace multi - space to single - space 归一化器，共有 32003 个令牌。它是在荷兰语的 mc4 数据集上，使用 Huggingface Transformers 的 [Flax 示例](https://github.com/huggingface/transformers/tree/master/examples/flax/language - modeling) 脚本进行训练的。详情请参考 ./raw/main/tokenizer.json。

数据集

预训练数据集：下面列出的所有模型均在清理后的荷兰语 mC4 上进行预训练。该数据集是对原始 mC4 进行清理后的版本，清理操作包括：
- 移除包含荷兰语和英语 [脏话列表](https://github.com/LDNOOBW/List - of - Dirty - Naughty - Obscene - and - Otherwise - Bad - Words) 中词汇的文档。
- 移除单词数少于 3 个的句子。
- 移除包含超过 1000 个字符的单词的句子。
- 移除句子数少于 5 个的文档。
- 移除包含 "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", "use cookies", "elementen ontbreken", "deze printversie" 的文档。
混合数据集：荷兰语和英语模型在荷兰语 mC4 和英语 C4 的 50/50% 混合数据集上进行预训练。
微调数据集：翻译模型在 CCMatrix 上进行微调。

荷兰语 T5 模型

已经训练了三种类型的 [荷兰语 T5 模型（博客）](https://huggingface.co/spaces/yhavinga/pre - training - dutch - t5 - models)。t5 - base - dutch 是唯一使用原始 T5 配置的模型。其他模型类型 t5 - v1.1 和 t5 - eff 使用 gated - relu 而非 relu 作为激活函数，并且除非训练出现发散情况（如 t5 - v1.1 - large - dutch - cased），否则以 0.0 的丢弃率进行训练。T5 - eff 模型在层数上有所不同。以下表格列出了这些模型的几个维度信息：

	t5-base-dutch	t5-v1.1-base-dutch-uncased	t5-v1.1-base-dutch-cased	t5-v1.1-large-dutch-cased	t5-v1_1-base-dutch-english-cased	t5-v1_1-base-dutch-english-cased-1024	t5-small-24L-dutch-english	t5-xl-4L-dutch-english-cased	t5-base-36L-dutch-english-cased	t5-eff-xl-8l-dutch-english-cased	t5-eff-large-8l-dutch-english-cased
类型	t5	t5-v1.1	t5-v1.1	t5-v1.1	t5-v1.1	t5-v1.1	t5 eff	t5 eff	t5 eff	t5 eff	t5 eff
模型维度	768	768	768	1024	768	768	512	2048	768	1024	1024
前馈网络维度	3072	2048	2048	2816	2048	2048	1920	5120	2560	16384	4096
头数	12	12	12	16	12	12	8	32	12	32	16
键值维度	64	64	64	64	64	64	64	64	64	128	64
层数	12	12	12	24	12	12	24	4	36	8	8
参数数量	223M	248M	248M	783M	248M	248M	250M	585M	729M	1241M	335M
前馈投影激活函数	relu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu	gated-gelu
丢弃率	0.1	0.0	0.0	0.1	0.0	0.0	0.0	0.1	0.0	0.0	0.0
数据集	mc4_nl_cleaned	mc4_nl_cleaned full	mc4_nl_cleaned full	mc4_nl_cleaned	mc4_nl_cleaned small_en_nl	mc4_nl_cleaned large_en_nl	mc4_nl_cleaned large_en_nl	mc4_nl_cleaned large_en_nl	mc4_nl_cleaned large_en_nl	mc4_nl_cleaned large_en_nl	mc4_nl_cleaned large_en_nl
训练序列长度	512	1024	1024	512	512	1024	512	512	512	512	512
批量大小	128	64	64	64	128	64	128	512	512	64	128
总步数	527500	1014525	1210154	1120k/2427498	2839630	1520k/3397024	851852	212963	212963	538k/1703705	851850
周期数	1	2	2	2	10	4	1	1	1	1	1
持续时间	2d9h	5d5h	6d6h	8d13h	11d18h	9d1h	4d10h	6d1h	17d15h	4d 19h	3d 23h
优化器	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor	adafactor
学习率	0.005	0.005	0.005	0.005	0.005	0.005	0.005	0.005	0.009	0.005	0.005
预热步数	10000.0	10000.0	10000.0	10000.0	10000.0	5000.0	20000.0	2500.0	1000.0	1500.0	1500.0
评估损失	1.38	1.20	0.96	1.07	1.11	1.13	1.18	1.27	1.05	1.3019	1.15
评估准确率	0.70	0.73	0.78	0.76	0.75	0.74	0.74	0.72	0.76	0.71	0.74

评估

上述列表中的大多数模型都针对摘要和翻译任务进行了微调。下图展示了评估分数，其中 x 轴表示翻译的 Bleu 分数（越高越好），y 轴表示摘要的 Rouge1 翻译分数（越高越好）。点的大小与模型大小成正比。推理速度较快的模型用绿色表示，较慢的用蓝色表示。

Evaluation T5 Dutch English

评估是在使用以下设置训练的微调模型上进行的：

	摘要任务	翻译任务
数据集	CNN Dailymail NL	CCMatrix en -> nl
训练样本数	50K	50K
优化器	Adam	Adam
学习率	0.001	0.0005
源序列长度	1024	128
目标序列长度	142	128
标签平滑	0.05	0.1
评估样本数	1000	1000

请注意，训练数据量仅限于总数据集大小的一部分，因此以下分数仅可用于比较“迁移学习”能力。此评估的微调检查点未保存，因为它们仅用于比较预训练模型。

摘要任务的评估指标是测试分割中 1000 篇文档的 Rouge 分数：

	t5-base-dutch	t5-v1.1-base-dutch-uncased	t5-v1.1-base-dutch-cased	t5-v1_1-base-dutch-english-cased	t5-v1_1-base-dutch-english-cased-1024	t5-small-24L-dutch-english	t5-xl-4L-dutch-english-cased	t5-base-36L-dutch-english-cased	t5-eff-large-8l-dutch-english-cased	mt5-base
rouge1	33.38	33.97	34.39	33.38	34.97	34.38	30.35	14.23	34.04	33.25
rouge2	13.32	13.85	13.98	13.47	14.01	13.89	11.57	14.23	13.76	12.74
rougeL	24.22	24.72	25.1	24.34	24.99	25.25	22.69	25.05	24.75	23.5
rougeLsum	30.23	30.9	31.44	30.51	32.01	31.38	27.5	32.12	31.12	30.15
每秒处理样本数	3.18	3.02	2.99	3.22	2.97	1.57	2.8	0.61	3.27	1.22

以下模型针对英语到荷兰语的翻译任务进行了评估。请注意，前四个模型仅在荷兰语上进行预训练。它们仍然表现良好，可能是因为翻译方向是从英语到荷兰语。报告的数字是测试分割中 1000 篇文档的 Bleu 分数：

	t5-base-dutch	t5-v1.1-base-dutch-uncased	t5-v1.1-base-dutch-cased	t5-v1.1-large-dutch-cased	t5-v1_1-base-dutch-english-cased	t5-v1_1-base-dutch-english-cased-1024	t5-small-24L-dutch-english	t5-xl-4L-dutch-english-cased	t5-base-36L-dutch-english-cased	t5-eff-large-8l-dutch-english-cased	mt5-base
文档中此处表格未完整给出数据，故未列出

🔧 技术细节

请参考原始的 T5 论文和《Scale Efficiently》论文，以获取有关 T5 架构和配置的更多信息。不过需要注意的是，此模型（t5 - base - dutch）与这些项目无关，并非“官方”检查点：

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 作者：Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers 作者：Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler。