开源Tapex-base模型 - 轻松处理表格推理任务，免费高效超实用

首页

Tapex Base

由 microsoft 开发

TAPEX是一种通过神经SQL执行器学习的表格预训练模型，能够处理表格推理任务。

大型语言模型

Transformers

英语开源协议:MIT #表格问答 #SQL执行模拟 #表格推理

下载量 799

发布时间 : 3/2/2022

模型简介

TAPEX是一种基于BART架构的表格预训练模型，通过模拟SQL执行器的方式学习表格推理能力，适用于表格问答和表格事实验证等任务。

模型特点

神经SQL执行器

通过模拟SQL执行器的方式学习表格推理能力，能够处理复杂的表格查询任务。

表格预训练

在合成语料库上进行预训练，自动生成可执行的SQL查询，提升模型对表格数据的理解能力。

基于BART架构

结合了双向编码器和自回归解码器的优势，适用于生成式任务。

模型能力

表格问答

表格事实验证

SQL查询执行

使用案例

数据分析

表格问答

根据给定的表格数据回答自然语言问题。

能够准确回答关于表格内容的查询问题。

表格事实验证

验证表格中数据的真实性或一致性。

能够判断表格数据是否符合特定事实或规则。

🚀 TAPEX（基础规模模型）

TAPEX是一种预训练方法，通过学习神经SQL执行器，赋予现有模型“表格推理”能力，在表格问答和事实验证等任务中表现出色。

🚀 快速开始

使用示例

以下是如何在transformers库中使用该模型的示例：

from transformers import TapexTokenizer, BartForConditionalGeneration
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-base")
model = BartForConditionalGeneration.from_pretrained("microsoft/tapex-base")

data = {
    "year": [1896, 1900, 1904, 2004, 2008, 2012],
    "city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex accepts uncased input since it is pre-trained on the uncased corpus
query = "select year where city = beijing"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model.generate(**encoding)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ['2008']

微调方法

请在此处查找微调脚本。

✨ 主要特性

创新性预训练方法：TAPEX（通过执行进行表格预训练）是一种概念简单且经验证有效的预训练方法，能让现有模型具备“表格推理”技能。它通过在合成语料库上学习神经SQL执行器来实现表格预训练，该语料库由自动合成的可执行SQL查询获得。
基于BART架构：TAPEX基于BART架构，这是一种Transformer编解码器（seq2seq）模型，具有双向（类似BERT）编码器和自回归（类似GPT）解码器。
多任务适用性：该模型主要用于在有监督的数据集上进行微调，目前可以针对表格问答任务和表格事实验证任务进行微调。

📚 详细文档

模型描述

TAPEX（通过执行进行表格预训练）是一种概念简单且经验证有效的预训练方法，旨在赋予现有模型“表格推理”技能。TAPEX通过在合成语料库上学习神经SQL执行器来实现表格预训练，该语料库是通过自动合成可执行SQL查询获得的。

TAPEX基于BART架构，这是一种Transformer编解码器（seq2seq）模型，具有双向（类似BERT）编码器和自回归（类似GPT）解码器。

预期用途

你可以使用原始模型来模拟神经SQL执行，即使用TAPEX在给定表格上执行SQL查询。然而，该模型主要用于在有监督的数据集上进行微调。目前，TAPEX可以针对表格问答任务和表格事实验证任务进行微调。请查看模型中心，查找针对你感兴趣的任务进行微调的版本。

📄 许可证

本项目采用MIT许可证。

引用信息

@inproceedings{
    liu2022tapex,
    title={{TAPEX}: Table Pre-training via Learning a Neural {SQL} Executor},
    author={Qian Liu and Bei Chen and Jiaqi Guo and Morteza Ziyadi and Zeqi Lin and Weizhu Chen and Jian-Guang Lou},
    booktitle={International Conference on Learning Representations},
    year={2022},
    url={https://openreview.net/forum?id=O50443AsCP}
}

原论文信息

TAPEX由Qian Liu、Bei Chen、Jiaqi Guo、Morteza Ziyadi、Zeqi Lin、Weizhu Chen、Jian - Guang Lou在《TAPEX: Table Pre-training via Learning a Neural SQL Executor》中提出。原始代码仓库可在此处找到。