语言:
- 英语
- 法语
- 罗马尼亚语
- 德语
- 多语言
推理: 禁用
任务标签: 视觉问答
许可证: Apache-2.0
标签:
- 抹茶模型
MatCha模型卡片 - 基于Chart2text-statista微调

此模型为MatCha模型,基于Chart2text-statista数据集微调。该微调版本可能更适用于图表摘要任务。
目录
- 摘要
- 使用模型
- 贡献
- 引用
摘要
论文摘要指出:
图表、图形和信息图等视觉语言数据在人类世界中无处不在。然而,当前最先进的视觉语言模型在此类数据上表现欠佳。我们提出MATCHA(数学推理与图表解构预训练)方法,通过联合建模图表与语言数据来增强视觉语言模型能力。特别设计了涵盖图表解构和数值推理等核心能力的预训练任务。基于最新图像到文本模型Pix2Struct进行预训练后,在PlotQA和ChartQA等基准测试中,MATCHA模型以近20%的优势超越现有最佳方法。我们还验证了MATCHA预训练在屏幕截图、教科书图表和文档插图等领域的迁移效果,证实其对更广泛视觉语言任务的提升价值。
使用模型
需向模型提出具体问题以获得稳定输出。以下示例询问图表中所有数值之和是否大于最大值:
from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image
processor = Pix2StructProcessor.from_pretrained('google/matcha-chart2text-statista')
model = Pix2StructForConditionalGeneration.from_pretrained('google/matcha-chart2text-statista')
url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/20294671002019.png"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(images=image, text="老挝的数值是否大于四个地区总和?", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
>>> 否
T5x格式转换
使用转换脚本:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path T5X检查点路径 --pytorch_dump_path 保存路径 --is_vqa
大模型转换需添加参数:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path T5X检查点路径 --pytorch_dump_path 保存路径 --use-large --is_vqa
转换完成后可通过以下代码推送模型:
from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
model = Pix2StructForConditionalGeneration.from_pretrained(保存路径)
processor = Pix2StructProcessor.from_pretrained(保存路径)
model.push_to_hub("用户名/模型名")
processor.push_to_hub("用户名/模型名")
贡献
该模型由刘芳宇、Francesco Piccinno等人首创,Younes Belkada将其引入Hugging Face生态。
引用
若需引用本研究,请参考原论文:
@misc{liu2022matcha,
title={MatCha: 通过数学推理与图表解构增强视觉语言预训练},
author={刘芳宇 and Francesco Piccinno and Syrine Krichene and 庞晨曦 and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
year={2022},
eprint={2212.09662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}