M

Matcha Base

由 google 开发
MatCha是一种专注于图表理解和数学推理的视觉语言模型,通过联合建模图表与语言数据增强处理能力
下载量 2,445
发布时间 : 4/3/2023
模型介绍
内容详情
替代品

模型简介

该模型基于Pix2Struct架构,专门针对图表解构和数值推理任务进行预训练,在PlotQA和ChartQA等基准测试中表现优异

模型特点

图表解构能力
专门设计的预训练任务可有效解析图表中的视觉元素和数据结构
数值推理能力
强化数学计算和逻辑推理能力,可处理图表中的数值关系分析
跨领域迁移
在截图、教科书图表及文档插图等多种视觉语言任务上展现良好迁移效果

模型能力

图表内容理解
视觉问答
数值计算推理
多语言图表分析

使用案例

数据分析
商业图表分析
自动解读柱状图/折线图中的数据趋势和关键指标
在ChartQA基准测试中超越前最佳方法20%
教育辅助
教科书图表理解
解析教材中的复杂图表并生成文字说明
验证了在教科书图表领域的迁移效果