mgp-str-base开源OCR模型 - 多粒度预测高效实现场景文本识别

首页

Mgp Str Base

由 alibaba-damo 开发

MGP-STR是一个纯视觉场景文本识别模型，通过多粒度预测实现高效OCR。

文字识别

Transformers

#场景文本识别 #多粒度预测 #视觉Transformer

下载量 4,981

发布时间 : 11/23/2022

模型简介

该模型用于文本图像的光学字符识别（OCR），采用ViT架构和特别设计的A^3模块，支持字符、子词和单词级别的多粒度预测。

模型特点

多粒度预测

同时进行字符、子词和单词级别的预测，并通过融合策略合并结果

纯视觉架构

不依赖语言模型，仅使用视觉特征进行文本识别

A^3模块

特别设计的注意力模块，用于选择并整合有意义的令牌组合

模型能力

图像转文本

场景文本识别

光学字符识别(OCR)

使用案例

文档数字化

扫描文档识别

将扫描的文档图像转换为可编辑文本

高精度识别打印体文字

场景文本识别

街景文字识别

识别照片中的街道标志、商店招牌等文本

可处理不同字体和背景的文本

🚀 MGP-STR (基础尺寸模型)

MGP-STR基础尺寸模型是一个用于场景文本识别的模型，它基于ViT和特殊设计的A^3模块构建，能够对文本图像进行多粒度预测。该模型在MJSynth和SynthText数据集上进行训练，可用于光学字符识别（OCR）任务。

🚀 快速开始

你可以使用以下代码在PyTorch中使用这个模型：

from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition
import requests
from PIL import Image

processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base')
model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')

# 从IIIT - 5k数据集中加载图像
url = "https://i.postimg.cc/ZKwLg2Gw/367-14.png"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

pixel_values = processor(images=image, return_tensors="pt").pixel_values
outputs = model(pixel_values)

generated_text = processor.batch_decode(outputs.logits)['generated_text']

✨ 主要特性

多粒度预测：模型能够进行字符、子词甚至单词级别的多粒度预测，通过简单有效的融合策略将这些预测结果合并。
特殊模块设计：采用了专门设计的A^3模块，该模块可以从ViT输出的标记中选择有意义的组合，并将其整合为对应特定字符的输出标记。
子词预测：设计了基于BPE A^3模块和WordPiece A^3模块的子词分类头，用于子词预测，从而隐式建模语言信息。

📚 详细文档

模型描述

MGP-STR是一个纯视觉的场景文本识别（STR）模型，由ViT和特别设计的A^3模块组成。由于输入大小不一致，除了补丁嵌入模型外，ViT模块是从DeiT-base的权重初始化的。

图像（32x128）以固定大小的补丁序列（分辨率4x4）的形式呈现给模型，这些补丁经过线性嵌入。在将序列输入到ViT模块的各层之前，还会添加绝对位置嵌入。接下来，A^3模块从ViT输出的标记中选择有意义的组合，并将它们整合为一个对应特定字符的输出标记。此外，还设计了基于BPE A^3模块和WordPiece A^3模块的子词分类头，用于子词预测，以便隐式地建模语言信息。最后，通过一种简单而有效的融合策略将这些多粒度预测（字符、子词甚至单词）合并。

预期用途和局限性

你可以使用原始模型对文本图像进行光学字符识别（OCR）。可以在模型中心中寻找针对你感兴趣的任务进行微调的版本。

BibTeX引用和引用信息

@inproceedings{ECCV2022mgp_str,
  title={Multi-Granularity Prediction for Scene Text Recognition},
  author={Peng Wang, Cheng Da, and Cong Yao},
  booktitle = {ECCV},
  year={2022}
}