matcha-chartqa开源模型 - 增强图表与语言处理能力，图表问答超实用！

首页

Matcha Chartqa

由 google 开发

MatCha是一个增强视觉语言模型处理图表与语言数据能力的预训练模型，在图表问答任务上表现优异

文本生成图像

Transformers

支持多种语言开源协议:Apache-2.0 #图表问答 #数值推理 #多语言图表解析

下载量 1,060

发布时间 : 4/3/2023

模型简介

该模型通过数学推理与图表解析预训练，专门用于处理图表、曲线图等视觉语言数据的问答任务，在ChartQA等标准测试中超越现有方法20%

模型特点

联合图表语言处理

专门设计用于同时处理图表视觉信息和相关语言问题

数值推理能力

强化了数学计算和数值比较等推理能力

多领域迁移能力

在屏幕截图、教科书图表等多种视觉语言数据上表现出良好的迁移效果

模型能力

图表内容理解

视觉问答

数值计算与比较

多语言图表解析

使用案例

数据分析

商业图表分析

自动解读商业报表中的图表数据并回答相关问题

可准确识别图表中的数值关系

教育

教材图表理解

帮助学生理解教材中的复杂图表信息

能解释图表中的关键数据点

🚀 MatCha - 在ChartQA上微调的模型卡片

MatCha是一个用于视觉问答的模型，它在Chart2text - pew数据集上进行了微调。该模型能够更好地处理图表等视觉语言数据，在相关基准测试中表现出色，能有效提升视觉语言模型对图表和语言数据的联合建模能力。

🚀 快速开始

使用模型

你需要向模型提出具体问题，以获得一致的生成结果。以下是一个示例，询问模型图表中数值的总和是否大于最大值：

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('google/matcha-chartqa')
model = Pix2StructForConditionalGeneration.from_pretrained('google/matcha-chartqa')

url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/20294671002019.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, text="Is the sum of all 4 places greater than Laos?", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
>>> No

若要在GPU上运行预测，只需在创建模型和获取输入时添加 .to(0)（inputs = inputs.to(0)）。

从T5x转换到Hugging Face

你可以使用convert_pix2struct_checkpoint_to_pytorch.py脚本进行转换：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

如果你要转换一个大型模型，请运行：

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存后，你可以使用以下代码片段将转换后的模型推送到Hugging Face Hub：

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

✨ 主要特性

论文摘要指出：视觉语言数据（如图表、绘图和信息图）在人类世界中无处不在。然而，现有的先进视觉语言模型在处理这些数据时表现不佳。我们提出了MATCHA（数学推理和图表反渲染预训练）方法，以增强视觉语言模型对图表/绘图和语言数据的联合建模能力。具体来说，我们提出了几个预训练任务，涵盖了绘图解构和数值推理，这些是视觉语言建模中的关键能力。我们从最近提出的图像到文本视觉语言模型Pix2Struct开始进行MATCHA预训练。在PlotQA和ChartQA等标准基准测试中，MATCHA模型的表现比现有先进方法高出近20%。我们还研究了MATCHA预训练在屏幕截图、教科书图表和文档图形等领域的迁移能力，并观察到整体性能有所提升，验证了MATCHA预训练在更广泛的视觉语言任务中的实用性。

📄 许可证

本模型采用Apache - 2.0许可证。

👥 贡献者

该模型最初由Fangyu Liu、Francesco Piccinno等人贡献，并由Younes Belkada添加到Hugging Face生态系统中。

📖 引用

如果你想引用这项工作，请考虑引用原始论文：

@misc{liu2022matcha,
      title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
      author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
      year={2022},
      eprint={2212.09662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}