基于表格事实核查(TabFact)微调的TAPAS大型模型
该模型有两个可用版本。默认的最新版本对应原始GitHub仓库中的tapas_tabfact_inter_masklm_large_reset
检查点。该模型在MLM(掩码语言建模)和作者称为"中间预训练"的额外步骤上进行预训练,然后在TabFact数据集上微调。默认使用相对位置嵌入(即在表格每个单元格重置位置索引)。
另一个(非默认)版本使用绝对位置嵌入:
no_reset
版本,对应tapas_tabfact_inter_masklm_large
免责声明:发布TAPAS的团队未为此模型编写模型卡,本模型卡由Hugging Face团队和贡献者编写。
模型描述
TAPAS是一个类似BERT的Transformer模型,通过自监督方式在维基百科英文表格数据上预训练。这意味着它仅使用原始表格及相关文本进行预训练,无需人工标注(因此可利用大量公开数据),通过自动流程从文本生成输入和标签。具体而言,它通过两个目标进行预训练:
- 掩码语言建模(MLM):给定(扁平化的)表格及上下文,模型随机掩码15%的输入词汇,然后处理整个(部分掩码的)序列,预测被掩码的词汇。与传统RNN逐个处理词汇或GPT等自回归模型不同,这种方法使模型能学习表格及相关文本的双向表示。
- 中间预训练:为增强表格数值推理能力,作者额外使用数百万条合成训练样例进行预训练。模型需判断句子是否被表格内容支持或反驳,训练样例基于合成及反事实陈述生成。
通过这种方式,模型学习表格及相关英文文本的内部表示,可用于提取下游任务(如表格问答或句子与表格内容验证)所需的特征。通过在预训练模型顶部添加分类头,并与基础模型在TabFact上联合训练完成微调。
使用场景与限制
该模型可用于判断句子是否被表格内容支持或反驳。代码示例请参阅HuggingFace官网的TAPAS文档。
训练流程
预处理
文本经小写转换后使用30,000词汇量的WordPiece分词器处理。模型输入格式为:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
微调
模型在32个Cloud TPU v3核心上微调80,000步,最大序列长度512,批量大小512。此配置下微调耗时约14小时,使用Adam优化器(学习率2e-5,预热比例0.05)。详见论文附录A2。
参考文献
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
booktitle = {International Conference on Learning Representations (ICLR)},
address = {Addis Ababa, Ethiopia},
month = {April},
year = {2020}
}