开源Tapex-large-finetuned-wikisql模型 - 助力表格推理任务高效处理

首页

Tapex Large Finetuned Wikisql

由 microsoft 开发

TAPEX是一种通过神经SQL执行器学习的表格预训练模型，基于BART架构，专为表格推理任务设计。

大型语言模型

Transformers

英语开源协议:MIT #表格问答 #SQL执行预训练 #表格推理

下载量 676

发布时间 : 3/8/2022

模型简介

TAPEX通过在一个合成语料库上学习神经SQL执行器来实现表格预训练，该语料库通过自动合成可执行的SQL查询获得。模型基于BART架构，具有双向编码器和自回归解码器。

模型特点

表格推理能力

通过神经SQL执行器学习，赋予模型强大的表格推理能力。

合成语料库预训练

使用自动合成的可执行SQL查询作为预训练语料库。

BART架构

结合了双向编码器和自回归解码器的优势。

模型能力

表格问答

SQL查询执行

表格数据推理

使用案例

数据查询

简单表格问答

回答关于表格数据的简单问题

如示例中的'北京在哪一年举办了奥运会？'，模型正确回答'2008.0'

数据统计

对表格数据进行统计查询

如示例中的'3号球员曾在多少所学校效力？'，模型正确回答'1.0'

🚀 TAPEX (大型模型)

TAPEX是一种用于表格推理的预训练模型，它通过学习神经SQL执行器来实现表格预训练，能有效提升现有模型的表格推理能力。

🚀 快速开始

TAPEX（通过执行进行表格预训练）由Qian Liu、Bei Chen、Jiaqi Guo、Morteza Ziyadi、Zeqi Lin、Weizhu Chen、Jian - Guang Lou在论文 TAPEX: Table Pre - training via Learning a Neural SQL Executor 中提出。原始代码仓库可在 [这里](https://github.com/microsoft/Table - Pretraining) 找到。

✨ 主要特性

强大的表格推理能力：TAPEX是一种概念简单且经验证有效的预训练方法，可使现有模型具备表格推理技能。它通过在合成语料库上学习神经SQL执行器来实现表格预训练，该语料库由自动合成的可执行SQL查询获得。
基于BART架构：TAPEX基于BART架构，这是一种具有双向（类似BERT）编码器和自回归（类似GPT）解码器的Transformer编码器 - 编码器（seq2seq）模型。
特定数据集微调：此模型是在 WikiSQL 数据集上微调的 tapex - base 模型。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import TapexTokenizer, BartForConditionalGeneration
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-large-finetuned-wikisql")
model = BartForConditionalGeneration.from_pretrained("microsoft/tapex-large-finetuned-wikisql")

data = {
    "year": [1896, 1900, 1904, 2004, 2008, 2012],
    "city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex accepts uncased input since it is pre-trained on the uncased corpus
query = "In which year did beijing host the Olympic Games?"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model.generate(**encoding)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# [' 2008.0']

评估方法

评估脚本可在这里找到。

📚 详细文档

你可以使用该模型处理相对简单的表格问答问题。以下是一些可解决的问题示例（对应表格未展示）：

问题	答案
告诉我南澳大利亚的备注是什么	当前系列无口号
为巴特勒社区学院（堪萨斯州）效力的球员打什么位置？	后卫 - 前锋
3号球员在多少所学校打过球？	1.0
克拉科双125（r2）比赛中有多少获胜车手？	1.0
2008年4月4日在美国播出的剧集叫什么名字？	《舞动奇迹》第一部分，《舞动奇迹》第二部分

🔧 技术细节

文档中未提及具体技术细节内容，故跳过此章节。

📄 许可证

本项目采用MIT许可证。

BibTeX引用

@inproceedings{
    liu2022tapex,
    title={{TAPEX}: Table Pre-training via Learning a Neural {SQL} Executor},
    author={Qian Liu and Bei Chen and Jiaqi Guo and Morteza Ziyadi and Zeqi Lin and Weizhu Chen and Jian-Guang Lou},
    booktitle={International Conference on Learning Representations},
    year={2022},
    url={https://openreview.net/forum?id=O50443AsCP}
}