语言:
- 英文
- 法文
- 罗马尼亚文
- 德文
- 多语言
推理: 不支持
任务标签: 视觉问答
许可协议: Apache-2.0
Pix2Struct模型卡片 - 微调于部件描述任务(屏幕界面组件标注)的大规模版本

目录
- 摘要
- 使用模型
- 贡献说明
- 引用文献
摘要
Pix2Struct是一种图像编码器-文本解码器模型,通过处理多样化的图文配对数据进行训练,支持图像描述和视觉问答等任务。完整模型列表详见论文表1:

模型摘要指出:
视觉化语言无处不在——从带图解的教科书到含图像表格的网页,再到有按钮表单的移动应用。或许由于这种多样性,先前研究通常依赖特定领域的定制方案,限制了底层数据、模型架构和目标的共享。我们提出Pix2Struct,一个专为纯视觉语言理解预训练的图到文模型,可微调用于包含视觉化语言的任务。该模型通过解析网页截图掩码为简化HTML进行预训练。网络环境中视觉元素与HTML结构的清晰对应关系,为下游任务的多样性提供了优质的大规模预训练数据源。直观上,该目标涵盖了OCR、语言建模、图像描述等常见预训练信号。除新颖的预训练策略外,我们还引入了可变分辨率输入表示法,以及更灵活的视觉语言输入整合方式——直接将问题等语言提示渲染在输入图像上。首次证明单一预训练模型能在文档、插图、用户界面和自然图像四大领域的九项任务中,六项达到最先进水平。
使用模型
从T5x转换至HuggingFace格式
使用以下脚本进行转换:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path T5X检查点路径 --pytorch_dump_path 保存路径
转换大模型时添加参数:
python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path T5X检查点路径 --pytorch_dump_path 保存路径 --use-large
转换完成后可通过以下代码推送至Hub:
from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
model = Pix2StructForConditionalGeneration.from_pretrained(保存路径)
processor = Pix2StructProcessor.from_pretrained(保存路径)
model.push_to_hub("用户名/模型名")
processor.push_to_hub("用户名/模型名")
运行模型
操作指南与基础版文本描述模型完全一致。
贡献说明
本模型由Kenton Lee、Mandar Joshi等人首创,并由Younes Belkada引入Hugging Face生态。
引用文献
若需引用,请参考原始论文:
@misc{https://doi.org/10.48550/arxiv.2210.03347,
doi = {10.48550/ARXIV.2210.03347},
url = {https://arxiv.org/abs/2210.03347},
author = {Lee, Kenton and Joshi, Mandar and Turc, Iulia and Hu, Hexiang and Liu, Fangyu and Eisenschlos, Julian and Khandelwal, Urvashi and Shaw, Peter and Chang, Ming-Wei and Toutanova, Kristina},
keywords = {计算与语言(CS.CL), 计算机视觉与模式识别(CS.CV), 计算机科学, 计算机科学},
title = {Pix2Struct:截图解析作为视觉语言理解的预训练手段},
publisher = {arXiv},
year = {2022},
copyright = {知识共享署名4.0国际许可}
}