P

Pix2struct Chartqa Base

由 google 开发
Pix2Struct是一种图像编码器-文本解码器模型,通过图像-文本配对数据进行多任务训练,专门针对图表问答任务进行微调
下载量 181
发布时间 : 3/21/2023

模型简介

该模型是Pix2Struct架构在ChartQA数据集上的微调版本,专门用于解析图表图像并回答相关问题,支持多语言图表理解

模型特点

多任务预训练
通过图像描述生成和视觉问答等多任务进行预训练,增强模型理解能力
多语言支持
支持英语、法语、罗马尼亚语和德语等多种语言的图表理解
HTML结构解析
创新性地通过解析网页截图掩码为简化HTML进行预训练,丰富视觉元素理解

模型能力

图表图像理解
视觉问答
多语言文本生成
结构化数据提取

使用案例

教育
教科书图表解析
帮助学生理解教科书中的复杂图表和数据可视化内容
可准确回答关于图表数据的各类问题
商业智能
商业报告分析
自动解析商业报告中的图表和数据可视化
快速提取关键业务指标和趋势信息
AIbase
智启未来,您的人工智能解决方案智库
简体中文