标签:
- 文档图像转换器
- 视觉
- 图像分类
数据集:
- RVL-CDIP
小部件示例:
- 图片: https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip/resolve/main/coca_cola_advertisement.png
示例标题: 广告
- 图片: https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip/resolve/main/scientific_publication.png
示例标题: 科学出版物
文档图像转换器(基础尺寸模型)
文档图像转换器(DiT)模型基于IIT-CDIP数据集(Lewis等人,2006年)进行预训练,该数据集包含4200万张文档图像,并在RVL-CDIP数据集上进行了微调。RVL-CDIP数据集包含40万张灰度图像,分为16个类别,每个类别有25,000张图像。该模型由Li等人在论文DiT: 文档图像转换器的自监督预训练中提出,并首次发布于此代码库。需要注意的是,DiT的架构与BEiT完全相同。
免责声明:发布DiT的团队未为此模型编写模型卡片,因此本模型卡片由Hugging Face团队编写。
模型描述
文档图像转换器(DiT)是一种类似于BERT的Transformer编码器模型,通过自监督方式在大量图像上进行预训练。模型的预训练目标是根据掩码图像块预测离散VAE(dVAE)编码器的视觉标记。
图像以固定大小的块(分辨率为16x16)序列形式输入模型,这些块经过线性嵌入。在将序列输入Transformer编码器层之前,还会添加绝对位置嵌入。
通过预训练,模型学习到图像的内在表示,可用于提取对下游任务有用的特征:例如,如果您有一个标记的文档图像数据集,可以在预训练编码器之上放置一个线性层来训练标准分类器。
预期用途与限制
您可以将原始模型用于将文档图像编码到向量空间,但它主要用于微调任务,如文档图像分类、表格检测或文档布局分析。请参阅模型中心查找您感兴趣任务的微调版本。
使用方法
以下是如何在PyTorch中使用此模型的示例:
from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
image = Image.open('您的文档图像路径').convert('RGB')
processor = AutoImageProcessor.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("预测类别:", model.config.id2label[predicted_class_idx])
BibTeX条目及引用信息
@article{Lewis2006BuildingAT,
title={Building a test collection for complex document information processing},
author={David D. Lewis and Gady Agam and Shlomo Engelson Argamon and Ophir Frieder and David A. Grossman and Jefferson Heard},
journal={Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval},
year={2006}
}