许可协议: MIT
语言:
ChartGemma:面向真实场景图表推理的视觉指令微调模型
论文链接: https://arxiv.org/abs/2407.04172
论文摘要指出:
鉴于图表作为跨行业和科学领域的数据分析、可视化及决策工具的普遍性,开发用于图表理解和推理的预训练基础模型及通用指令微调模型的研究兴趣日益增长。然而,现有方法在影响图表表征模型性能的两个关键维度上存在显著缺陷:其训练数据来源于图表底层数据表,忽略了图表图像中的视觉趋势与模式;同时采用弱对齐的视觉-语言主干模型进行领域特定训练,限制了模型在真实场景中处理图表的泛化能力。我们针对这些核心缺陷提出了ChartGemma——基于PaliGemma构建的创新性图表理解与推理模型。不同于依赖底层数据表的方法,ChartGemma直接通过图表图像生成的指令微调数据进行训练,从而能同时捕捉多样化图表中的高层趋势和底层视觉信息。这种简洁的方法在涵盖图表摘要、问答和事实核查的5个基准测试中均达到最先进水平,我们对真实场景图表的定性研究表明,相较于同类模型,ChartGemma生成的摘要更具现实性和事实准确性。
在线演示
若想快速体验我们的模型,可通过Hugging Face Spaces平台访问我们提供友好界面的公开网页演示!
ChartGemma在线演示
推理应用
您可轻松使用Hugging Face库运行我们的模型进行推理!只需完成以下步骤:
- 将**image_path**替换为您系统上的图表示例图像路径
- 编写**input_text**问题文本
我们推荐使用束搜索(beam size=4),若设备内存有限,可从generate方法中移除num_beams参数。
from PIL import Image
import requests
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
import torch
torch.hub.download_url_to_file('https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/multi_col_1229.png', 'chart_example_1.png')
image_path = "/content/chart_example_1.png"
input_text ="思维程序:在18-29岁年龄组中,Facebook Messenger和WhatsApp数值的总和是多少?"
model = PaliGemmaForConditionalGeneration.from_pretrained("ahmed-masry/chartgemma", torch_dtype=torch.float16)
processor = AutoProcessor.from_pretrained("ahmed-masry/chartgemma")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
image = Image.open(image_path).convert('RGB')
inputs = processor(text=input_text, images=image, return_tensors="pt")
prompt_length = inputs['input_ids'].shape[1]
inputs = {k: v.to(device) for k, v in inputs.items()}
generate_ids = model.generate(**inputs, num_beams=4, max_new_tokens=512)
output_text = processor.batch_decode(generate_ids[:, prompt_length:], skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output_text)
联系方式
如有关于本工作的任何疑问,请联系**Ahmed Masry**,邮箱地址:amasry17@ku.edu.tr 或 ahmed.elmasry24653@gmail.com。
引用文献
若在研究中使用了我们的模型,请引用我们的论文。
@misc{masry2024chartgemmavisualinstructiontuningchart,
title={ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild},
author={Ahmed Masry and Megh Thakkar and Aayush Bajaj and Aaryaman Kartha and Enamul Hoque and Shafiq Joty},
year={2024},
eprint={2407.04172},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.04172},
}