语言:
数据集:
标签:
推理: false
许可证: apache-2.0
荷兰语T5基础模型
由Yeb Havinga和Dat Nguyen在Hugging Face社区周期间创建,活动由HuggingFace组织,TPU使用由谷歌赞助,项目为从零开始预训练荷兰语T5。另请参阅基于此模型的微调版t5-base-dutch-demo和演示应用**Netherformer 📰**。
2022年1月5日:模型更新,评估准确率从0.64提升至0.70。
2022年1月11日:另见评估准确率达0.78的yhavinga/t5-v1.1-base-dutch-cased
该T5模型拥有2.22亿参数,通过掩码语言建模(去噪标记跨度破坏)目标在数据集mc4_nl_cleaned
的full
配置上预训练了1个周期,耗时2天9小时,序列长度为512,批量大小为128,总步数为527,500(350亿标记)。预训练评估损失和准确率分别为1.38和0.70。下方评估部分比较了不同预训练模型在摘要和翻译任务上的表现。
- 预训练的T5模型需经微调才能用于下游任务,因此右侧的推理小部件已关闭。
- 荷兰语CNN摘要模型的演示,请访问Hugging Face Spaces的**Netherformer 📰**示例应用!
关于T5架构和配置的更多信息,请参考原始T5论文和高效扩展论文,但需注意此模型(t5-base-dutch)与这些项目无关,并非“官方”检查点:
分词器
该模型使用区分大小写的SentencePiece分词器,配置了Nmt, NFKC, 替换多空格为单空格
规范化器,包含32,003个标记。分词器在荷兰语mc4上训练,使用了Huggingface Transformers Flax示例中的脚本。详情见./raw/main/tokenizer.json。
数据集
下方列出的所有模型均在清理过的荷兰语mC4上预训练,该数据集与原mC4的区别在于:
- 移除了包含荷兰语和英语脏话列表中选定词汇的文档
- 移除了少于3个词的句子
- 移除了含有超过1000字符单词的句子
- 移除了少于5个句子的文档
- 移除了包含“javascript”、“lorum ipsum”、“terms of use”、“privacy policy”、“cookie policy”、“uses cookies”、“use of cookies”、“use cookies”、“elementen ontbreken”、“deze printversie”的文档
荷兰语和英语模型在荷兰语mC4和英语C4的50/50%混合数据上预训练。翻译模型在CCMatrix上微调。
荷兰语T5模型
训练了三种类型的荷兰语T5模型(博客)。t5-base-dutch
是唯一采用原始T5配置的模型。其他模型类型t5-v1.1和t5-eff使用gated-relu
而非relu
作为激活函数,且训练时丢弃率为0.0
,除非训练发散(如t5-v1.1-large-dutch-cased
)。T5-eff模型在层数上有所不同。表格列出了这些模型的多维度信息。并非所有t5-eff模型都高效,例如低效的t5-xl-4L-dutch-english-cased
。
(此处省略表格翻译,因内容为技术参数对比)
评估
上方列表中的大多数模型已针对摘要和翻译任务进行了微调。下图显示了评估分数,x轴为翻译Bleu分数(越高越好),y轴为摘要Rouge1分数(越高越好)。点的大小与模型大小成正比。推理速度较快的模型标记为绿色,较慢的标记为蓝色。

评估基于以下设置的微调模型运行:
(此处省略表格翻译,因内容为训练设置参数)
注意训练数据量仅限于总数据集的一小部分,因此下方分数仅用于比较“迁移学习”能力。此次评估的微调检查点未保存,因它们仅用于预训练模型比较。
摘要任务的数字是测试集1000份文档的Rouge分数。
(此处省略表格翻译,因内容为模型性能对比)
下方模型针对英荷双向翻译在CCMatrix前25M样本上微调,总计50M训练样本。评估在CCMatrix、Tatoeba和Opus Books的未见样本上进行。_bp
列列出了简短惩罚。avg_bleu
分数是三个评估数据集上的平均Bleu分数。最佳分数以粗体显示。
(此处省略表格翻译,因内容为翻译模型性能对比)
致谢
此项目离不开谷歌通过TPU研究云慷慨提供的算力支持。HuggingFace 🤗生态系统在训练的各个环节发挥了关键作用。Weights & Biases使得跟踪多次训练会话和通过可视化协调超参数扫描成为可能。以下仓库对设置TPU-VM及获取训练gpt2的合理超参数提供了帮助:
由Yeb Havinga创建