tapas-large-finetuned-tabfact开源表格处理模型 - 验证句子与表格内容的支持关系

首页

Tapas Large Finetuned Tabfact

由 google 开发

TAPAS是一个基于BERT的Transformer模型，专门用于处理表格数据，通过自监督学习在维基百科英文表格上预训练，并在TabFact数据集上微调，用于验证句子是否被表格内容支持或反驳。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #表格事实核查 #表格语义理解 #数值推理增强

下载量 3,806

发布时间 : 3/2/2022

模型简介

该模型主要用于表格内容的事实核查，能够判断给定句子是否被表格数据支持或反驳。它结合了掩码语言建模和中间预训练技术，特别擅长处理表格数据的数值推理任务。

模型特点

表格感知预训练

通过专门设计的预训练目标(MLM和中间预训练)使模型理解表格结构和内容

相对位置嵌入

默认版本使用相对位置嵌入，在表格每个单元格重置位置索引，更好地处理表格结构

数值推理能力

通过中间预训练阶段特别增强了处理表格中数值数据的能力

模型能力

表格内容理解

事实核查

表格数据推理

文本-表格匹配验证

使用案例

事实核查

表格内容验证

验证自然语言陈述是否被表格数据支持

在TabFact数据集上表现良好

数据分析

自动报表验证

自动检查报告中的陈述是否与基础数据表一致

🚀 TAPAS大型模型在表格事实核查（TabFact）上的微调

本模型可使用的版本有两个。最新版本（也是默认版本）对应于原始GitHub仓库中的 tapas_tabfact_inter_masklm_large_reset 检查点。该模型先在MLM和作者所称的中间预训练步骤上进行预训练，然后在TabFact上进行微调。默认情况下，它使用相对位置嵌入（即在表格的每个单元格处重置位置索引）。

另一个（非默认）可使用的版本是使用绝对位置嵌入的版本：

no_reset，对应于 tapas_tabfact_inter_masklm_large

免责声明：发布TAPAS的团队并未为该模型撰写模型卡片，此模型卡片由Hugging Face团队及贡献者撰写。

✨ 主要特性

有两个可使用版本，默认版本使用相对位置嵌入，非默认版本使用绝对位置嵌入。
经过预训练和微调，可用于表格事实核查任务。

🚀 快速开始

此模型可用于分类判断一个句子是否得到表格内容的支持或反驳。关于代码示例，请参考Hugging Face网站上TAPAS的文档。

📚 详细文档

模型描述

TAPAS是一个类似BERT的Transformer模型，以自监督的方式在来自维基百科的大量英文数据语料库上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练，没有人工进行任何标注（这就是它可以使用大量公开可用数据的原因），并通过自动流程从这些文本中生成输入和标签。更确切地说，它通过两个目标进行预训练：

掩码语言模型（MLM）：给定一个（扁平化的）表格和相关上下文，模型随机掩码输入中15%的单词，然后将整个（部分掩码的）序列输入模型。接着，模型需要预测被掩码的单词。这与传统的循环神经网络（RNN）不同，RNN通常逐个处理单词，也与像GPT这样的自回归模型不同，自回归模型会在内部掩码未来的标记。这使得模型能够学习表格和相关文本的双向表示。
中间预训练：为了鼓励在表格上进行数值推理，作者额外通过创建一个包含数百万个语法生成的训练示例的平衡数据集来预训练模型。在这里，模型必须预测（分类）一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句和反事实语句创建。

通过这种方式，模型学习到表格和相关文本中使用的英语的内部表示，然后可用于提取对下游任务有用的特征，如下回答关于表格的问题，或确定一个句子是否被表格内容所蕴含或反驳。微调是通过在预训练模型之上添加一个分类头，然后在TabFact上联合训练这个随机初始化的分类头和基础模型来完成的。

预期用途和限制

你可以使用此模型来分类判断一个句子是否得到表格内容的支持或反驳。

训练过程

预处理

文本先转换为小写，然后使用WordPiece进行分词，词汇表大小为30,000。模型的输入形式如下：

[CLS] 句子 [SEP] 扁平化表格 [SEP]

微调

该模型在32个Cloud TPU v3核心上进行了80,000步的微调，最大序列长度为512，批量大小为512。在这种设置下，微调大约需要14小时。使用的优化器是Adam，学习率为2e-5，热身比例为0.05。更多详细信息请参阅论文（附录A2）。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}