语言: 英语
标签:
- 表格问答系统
- 表格解析
许可证: Apache-2.0
数据集:
- 维基表格问题集
基于维基表格问题(WTQ)微调的TAPAS大模型
本模型提供两个可用版本。默认版本对应原始GitHub仓库中的tapas_wtq_wikisql_sqa_inter_masklm_large_reset
检查点。该模型先通过掩码语言建模(MLM)和作者称为"中间预训练"的额外步骤进行预训练,随后在SQA、WikiSQL和WTQ数据集上链式微调,采用相对位置嵌入(即在表格每个单元格重置位置索引)。
另一非默认可选版本为:
no_reset
:对应tapas_wtq_wikisql_sqa_inter_masklm_large
(中间预训练,绝对位置嵌入)
免责声明:TAPAS发布团队未为此模型编写说明卡片,本卡片由Hugging Face团队及贡献者撰写。
性能表现
模型架构
TAPAS是基于BERT架构的Transformer模型,通过自监督方式在维基百科海量英文表格数据上预训练。其预训练阶段包含两大目标:
-
掩码语言建模(MLM):将(扁平化处理的)表格及相关文本中15%词汇随机掩码,模型需预测被掩码内容。与传统RNN逐词处理或GPT类自回归模型不同,该方法使模型能学习表格与文本的双向表征。
-
中间预训练:为增强表格数值推理能力,作者构建了包含数百万合成训练样本的平衡数据集。模型需判断陈述是否被表格内容支持/反驳,这些样本包含真实陈述与反事实陈述。
通过这种预训练,模型掌握了表格及相关英语文本的内部表征,可应用于下游任务如表格问答或陈述验证。微调时在预训练模型顶部添加单元格选择头和聚合头,联合训练这些随机初始化的分类头与基础模型。
应用场景与限制
本模型适用于表格相关的问答任务。具体代码示例参见HuggingFace官网TAPAS文档。
训练流程
数据预处理
文本经小写处理和WordPiece分词(词表量30,000),输入格式为:
[CLS]问题[SEP]扁平化表格[SEP]
作者先将WTQ数据集自动转换为SQA格式。
微调细节
在32个Cloud TPU v3核心上训练50,000步,最大序列长度512,批大小512(约10小时完成)。使用Adam优化器(学习率1.93581e-5,预热比例0.128960)。通过设置TapasConfig
的select_one_column
参数添加归纳偏置,使模型仅选择同列单元格(详见论文表11-12)。
文献引用
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
author = {Panupong Pasupat and Percy Liang},
title = {Compositional Semantic Parsing on Semi-Structured Tables},
journal = {CoRR},
volume = {abs/1508.00305},
year = {2015},
url = {http://arxiv.org/abs/1508.00305},
archivePrefix = {arXiv},
eprint = {1508.00305},
timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
biburl = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}