P

Pix2struct Docvqa Base

由 google 开发
Pix2Struct是一个图像编码器-文本解码器模型,通过图像-文本对训练,支持多种任务,包括图像描述生成和视觉问答。
下载量 8,601
发布时间 : 3/21/2023
模型介绍
内容详情
替代品

模型简介

Pix2Struct是一个纯视觉语言理解的预训练图像到文本模型,可微调用于包含视觉化语言的任务。该模型通过解析网页截图掩码为简化HTML进行预训练,支持OCR、语言建模、图像描述等多种功能。

模型特点

多任务支持
支持图像描述生成、视觉问答等多种视觉语言任务
跨领域能力
在文档、插图、用户界面和自然图像四大领域表现优异
灵活输入整合
语言提示可直接渲染在输入图像上,实现更灵活的视觉语言整合

模型能力

图像理解
文本生成
视觉问答
OCR识别
跨模态理解

使用案例

文档处理
扫描文档问答
从扫描的文档中提取信息并回答问题
在文档视觉问答任务中达到先进水平
网页理解
网页内容解析
理解网页截图中的内容和结构
通过HTML结构解析实现高效理解