许可证:llama2
数据集:
- RUCKBReasoning/TableLLM-SFT
语言:
- 英语
标签:
- 表格
- 问答
- 代码
TableLLM:在真实办公场景中实现大语言模型对表格数据的操作
| 论文 | 训练集 | Github | 主页 |
我们推出TableLLM,这是一款强大的大语言模型,专为高效处理表格数据操作任务而设计,无论是嵌入在电子表格还是文档中,都能满足真实办公场景的需求。TableLLM系列包含两种不同规模:TableLLM-7B和TableLLM-13B,它们分别基于CodeLlama-7b-Instruct-hf和CodeLlama-13b-Instruct-hf微调而成。
TableLLM根据不同的场景生成代码解决方案或直接文本答案来处理表格数据操作任务。代码生成用于处理嵌入在电子表格中的表格数据,通常涉及表格的插入、删除、更新、查询、合并和绘图操作。文本生成用于处理嵌入在文档中的表格数据,通常涉及短表格的查询操作。
评估结果
我们在三个基准测试上评估了TableLLM的代码生成能力:WikiSQL、Spider和自建表格操作基准。文本答案生成能力在四个基准测试上进行了测试:WikiTableQuestion(WikiTQ)、TAT-QA、FeTaQA和OTTQA。评估结果如下:
模型 |
WikiTQ |
TAT-QA |
FeTaQA |
OTTQA |
WikiSQL |
Spider |
自建基准 |
平均分 |
TaPEX |
38.5 |
– |
– |
– |
83.9 |
15.0 |
/ |
45.8 |
TaPas |
31.5 |
– |
– |
– |
74.2 |
23.1 |
/ |
42.92 |
TableLlama |
24.0 |
22.2 |
20.5 |
6.4 |
43.7 |
9.0 |
/ |
20.7 |
GPT3.5 |
58.5 |
72.1 |
71.2 |
60.8 |
81.7 |
67.4 |
77.1 |
69.8 |
GPT4 |
74.1 |
77.1 |
78.4 |
69.5 |
84.0 |
69.5 |
77.8 |
75.8 |
Llama2-Chat (13B) |
48.8 |
49.6 |
67.7 |
61.5 |
– |
– |
– |
56.9 |
CodeLlama (13B) |
43.4 |
47.2 |
57.2 |
49.7 |
38.3 |
21.9 |
47.6 |
43.6 |
Deepseek-Coder (33B) |
6.5 |
11.0 |
7.1 |
7.4 |
72.5 |
58.4 |
73.9 |
33.8 |
StructGPT (GPT3.5) |
52.5 |
27.5 |
11.8 |
14.0 |
67.8 |
84.8 |
/ |
48.9 |
Binder (GPT3.5) |
61.6 |
12.8 |
6.8 |
5.1 |
78.6 |
52.6 |
/ |
42.5 |
DATER (GPT3.5) |
53.4 |
28.4 |
18.3 |
13.0 |
58.2 |
26.5 |
/ |
37.0 |
TableLLM-7B (Ours) |
58.8 |
66.9 |
72.6 |
63.1 |
86.6 |
82.6 |
78.8 |
72.8 |
TableLLM-13B (Ours) |
62.4 |
68.2 |
74.5 |
62.5 |
90.7 |
83.4 |
80.8 |
74.7 |
提示模板
以下是用于生成代码解决方案和文本答案的提示模板。
代码解决方案
针对单表的插入、删除、更新、查询和绘图操作的提示模板:
[INST]以下是CSV文件的前几行。你需要编写一个Python程序来解决提供的问题。
CSV文件的表头和前几行:
{csv_data}
问题:{question}[/INST]
针对两个表合并操作的提示模板:
[INST]以下是两个CSV文件的前几行。你需要编写一个Python程序来解决提供的问题。
CSV文件1的表头和前几行:
{csv_data1}
CSV文件2的表头和前几行:
{csv_data2}
问题:{question}[/INST]
csv_data
字段填充为您提供的表格文件的前几行。以下是一个示例:
性别,长度,直径,高度,总重量,去壳重量,内脏重量,壳重量,环数
M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7
文本答案
针对短表格直接生成文本答案的提示模板:
[INST]提供一个全面且准确的解决方案,直接回答[问题]中概述的问题。
### [表格描述]
{table_descriptions}
### [表格]
```
{table_in_csv}
```
### [问题]
{question}
### [解决方案][/INST]
有关如何使用TableLLM的更多详情,请参阅我们的GitHub页面:https://github.com/TableLLM/TableLLM