模型简介
模型特点
模型能力
使用案例
🚀 t5-base-dutch
t5-base-dutch 是一个基于荷兰语的预训练模型,由 Yeb Havinga 和 Dat Nguyen 在 Hugging Face 社区周 期间开发。该模型可用于文本摘要和翻译等自然语言处理任务。
🚀 快速开始
本模型是预训练的 T5 模型,在用于下游任务之前需要进行微调。右侧的推理小部件已关闭。若要查看荷兰语 CNN 摘要模型的演示,请访问 Hugging Face Spaces 中的 Netherformer 📰 示例应用程序!
✨ 主要特性
- 参数规模:此 t5 模型拥有 222M 个参数。
- 预训练目标:在数据集
mc4_nl_cleaned
配置full
上,以掩码语言建模(去噪令牌跨度损坏)为目标进行预训练。 - 训练配置:训练了 1 个周期,持续时间为 2 天 9 小时,序列长度为 512,批量大小为 128,总步数为 527500(处理了 35B 个令牌)。
- 评估指标:预训练评估损失和准确率分别为 1.38 和 0.70。
📦 安装指南
文档中未提及安装步骤,故跳过此章节。
💻 使用示例
文档中未提供代码示例,故跳过此章节。
📚 详细文档
分词器
该模型使用了一个区分大小写的 SentencePiece 分词器,配置了 Nmt, NFKC, Replace multi - space to single - space
归一化器,共有 32003 个令牌。它是在荷兰语的 mc4 数据集上,使用 Huggingface Transformers 的 [Flax 示例](https://github.com/huggingface/transformers/tree/master/examples/flax/language - modeling) 脚本进行训练的。详情请参考 ./raw/main/tokenizer.json。
数据集
- 预训练数据集:下面列出的所有模型均在 清理后的荷兰语 mC4 上进行预训练。该数据集是对原始 mC4 进行清理后的版本,清理操作包括:
- 移除包含荷兰语和英语 [脏话列表](https://github.com/LDNOOBW/List - of - Dirty - Naughty - Obscene - and - Otherwise - Bad - Words) 中词汇的文档。
- 移除单词数少于 3 个的句子。
- 移除包含超过 1000 个字符的单词的句子。
- 移除句子数少于 5 个的文档。
- 移除包含 "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", "use cookies", "elementen ontbreken", "deze printversie" 的文档。
- 混合数据集:荷兰语和英语模型在荷兰语 mC4 和英语 C4 的 50/50% 混合数据集上进行预训练。
- 微调数据集:翻译模型在 CCMatrix 上进行微调。
荷兰语 T5 模型
已经训练了三种类型的 [荷兰语 T5 模型(博客)](https://huggingface.co/spaces/yhavinga/pre - training - dutch - t5 - models)。t5 - base - dutch
是唯一使用原始 T5 配置的模型。其他模型类型 t5 - v1.1 和 t5 - eff 使用 gated - relu
而非 relu
作为激活函数,并且除非训练出现发散情况(如 t5 - v1.1 - large - dutch - cased
),否则以 0.0
的丢弃率进行训练。T5 - eff 模型在层数上有所不同。以下表格列出了这些模型的几个维度信息:
t5-base-dutch | t5-v1.1-base-dutch-uncased | t5-v1.1-base-dutch-cased | t5-v1.1-large-dutch-cased | t5-v1_1-base-dutch-english-cased | t5-v1_1-base-dutch-english-cased-1024 | t5-small-24L-dutch-english | t5-xl-4L-dutch-english-cased | t5-base-36L-dutch-english-cased | t5-eff-xl-8l-dutch-english-cased | t5-eff-large-8l-dutch-english-cased | |
---|---|---|---|---|---|---|---|---|---|---|---|
类型 | t5 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5 eff | t5 eff | t5 eff | t5 eff | t5 eff |
模型维度 | 768 | 768 | 768 | 1024 | 768 | 768 | 512 | 2048 | 768 | 1024 | 1024 |
前馈网络维度 | 3072 | 2048 | 2048 | 2816 | 2048 | 2048 | 1920 | 5120 | 2560 | 16384 | 4096 |
头数 | 12 | 12 | 12 | 16 | 12 | 12 | 8 | 32 | 12 | 32 | 16 |
键值维度 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 64 |
层数 | 12 | 12 | 12 | 24 | 12 | 12 | 24 | 4 | 36 | 8 | 8 |
参数数量 | 223M | 248M | 248M | 783M | 248M | 248M | 250M | 585M | 729M | 1241M | 335M |
前馈投影激活函数 | relu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu |
丢弃率 | 0.1 | 0.0 | 0.0 | 0.1 | 0.0 | 0.0 | 0.0 | 0.1 | 0.0 | 0.0 | 0.0 |
数据集 | mc4_nl_cleaned | mc4_nl_cleaned full | mc4_nl_cleaned full | mc4_nl_cleaned | mc4_nl_cleaned small_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl |
训练序列长度 | 512 | 1024 | 1024 | 512 | 512 | 1024 | 512 | 512 | 512 | 512 | 512 |
批量大小 | 128 | 64 | 64 | 64 | 128 | 64 | 128 | 512 | 512 | 64 | 128 |
总步数 | 527500 | 1014525 | 1210154 | 1120k/2427498 | 2839630 | 1520k/3397024 | 851852 | 212963 | 212963 | 538k/1703705 | 851850 |
周期数 | 1 | 2 | 2 | 2 | 10 | 4 | 1 | 1 | 1 | 1 | 1 |
持续时间 | 2d9h | 5d5h | 6d6h | 8d13h | 11d18h | 9d1h | 4d10h | 6d1h | 17d15h | 4d 19h | 3d 23h |
优化器 | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor |
学习率 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.009 | 0.005 | 0.005 |
预热步数 | 10000.0 | 10000.0 | 10000.0 | 10000.0 | 10000.0 | 5000.0 | 20000.0 | 2500.0 | 1000.0 | 1500.0 | 1500.0 |
评估损失 | 1.38 | 1.20 | 0.96 | 1.07 | 1.11 | 1.13 | 1.18 | 1.27 | 1.05 | 1.3019 | 1.15 |
评估准确率 | 0.70 | 0.73 | 0.78 | 0.76 | 0.75 | 0.74 | 0.74 | 0.72 | 0.76 | 0.71 | 0.74 |
评估
上述列表中的大多数模型都针对摘要和翻译任务进行了微调。下图展示了评估分数,其中 x 轴表示翻译的 Bleu 分数(越高越好),y 轴表示摘要的 Rouge1 翻译分数(越高越好)。点的大小与模型大小成正比。推理速度较快的模型用绿色表示,较慢的用蓝色表示。
评估是在使用以下设置训练的微调模型上进行的:
摘要任务 | 翻译任务 | |
---|---|---|
数据集 | CNN Dailymail NL | CCMatrix en -> nl |
训练样本数 | 50K | 50K |
优化器 | Adam | Adam |
学习率 | 0.001 | 0.0005 |
源序列长度 | 1024 | 128 |
目标序列长度 | 142 | 128 |
标签平滑 | 0.05 | 0.1 |
评估样本数 | 1000 | 1000 |
请注意,训练数据量仅限于总数据集大小的一部分,因此以下分数仅可用于比较“迁移学习”能力。此评估的微调检查点未保存,因为它们仅用于比较预训练模型。
摘要任务的评估指标是测试分割中 1000 篇文档的 Rouge 分数:
t5-base-dutch | t5-v1.1-base-dutch-uncased | t5-v1.1-base-dutch-cased | t5-v1_1-base-dutch-english-cased | t5-v1_1-base-dutch-english-cased-1024 | t5-small-24L-dutch-english | t5-xl-4L-dutch-english-cased | t5-base-36L-dutch-english-cased | t5-eff-large-8l-dutch-english-cased | mt5-base | |
---|---|---|---|---|---|---|---|---|---|---|
rouge1 | 33.38 | 33.97 | 34.39 | 33.38 | 34.97 | 34.38 | 30.35 | 14.23 | 34.04 | 33.25 |
rouge2 | 13.32 | 13.85 | 13.98 | 13.47 | 14.01 | 13.89 | 11.57 | 14.23 | 13.76 | 12.74 |
rougeL | 24.22 | 24.72 | 25.1 | 24.34 | 24.99 | 25.25 | 22.69 | 25.05 | 24.75 | 23.5 |
rougeLsum | 30.23 | 30.9 | 31.44 | 30.51 | 32.01 | 31.38 | 27.5 | 32.12 | 31.12 | 30.15 |
每秒处理样本数 | 3.18 | 3.02 | 2.99 | 3.22 | 2.97 | 1.57 | 2.8 | 0.61 | 3.27 | 1.22 |
以下模型针对英语到荷兰语的翻译任务进行了评估。请注意,前四个模型仅在荷兰语上进行预训练。它们仍然表现良好,可能是因为翻译方向是从英语到荷兰语。报告的数字是测试分割中 1000 篇文档的 Bleu 分数:
🔧 技术细节
请参考原始的 T5 论文和《Scale Efficiently》论文,以获取有关 T5 架构和配置的更多信息。不过需要注意的是,此模型(t5 - base - dutch)与这些项目无关,并非“官方”检查点:
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。
- Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers 作者:Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler。
📄 许可证
本项目采用 apache-2.0
许可证。



