trocr-base-str开源OCR模型 - 免费识别单行文本图像，多数据集微调

首页

Trocr Base Str

由 microsoft 开发

TrOCR是基于Transformer的光学字符识别模型，专为单行文本图像识别设计，在多个标准数据集上进行了微调。

文字识别

Transformers

#单行文本识别 #Transformer架构 #预训练模型微调

下载量 692

发布时间 : 9/8/2022

模型简介

该模型采用编码器-解码器架构，结合了BEiT图像编码器和RoBERTa文本解码器，适用于各种场景下的文本识别任务。

模型特点

基于Transformer的OCR

采用先进的Transformer架构处理视觉文本识别任务，结合了计算机视觉和自然语言处理技术。

预训练模型微调

图像编码器基于BEiT预训练，文本解码器基于RoBERTa预训练，具有强大的迁移学习能力。

多数据集适应

在IC13、IC15、IIIT5K、SVT等多个标准OCR数据集上进行了微调，具有广泛适用性。

模型能力

单行文本图像识别

场景文字识别

印刷体文字识别

手写体文字识别(有限支持)

使用案例

文档数字化

扫描文档OCR

将扫描的文档图像转换为可编辑文本

高准确率的文本转换

场景文字识别

街景文字识别

识别照片中的街道标志和广告牌文字

可处理不同角度和光照条件的文字

🚀 TrOCR (基础大小模型，在STR基准上微调)

TrOCR模型在IC13、IC15、IIIT5K、SVT的训练集上进行了微调。该模型由Li等人在论文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出，并首次在此仓库中发布。它可用于将图像中的文字转换为文本，在场景文本识别等领域具有重要价值。

🚀 快速开始

你可以使用此原始模型对单行文本图像进行光学字符识别（OCR）。可访问模型中心查找针对你感兴趣的任务进行微调的版本。

✨ 主要特性

TrOCR模型是一个编码器 - 解码器模型，由一个图像Transformer作为编码器，一个文本Transformer作为解码器组成。图像编码器的权重初始化为BEiT的权重，而文本解码器的权重初始化为RoBERTa的权重。

图像以固定大小的图像块序列（分辨率为16x16）的形式呈现给模型，并进行线性嵌入。在将序列输入到Transformer编码器的各层之前，还会添加绝对位置嵌入。然后，Transformer文本解码器自回归地生成标记。

💻 使用示例

基础用法

以下是如何在PyTorch中使用此模型的示例：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IIIT-5k dataset
url = 'https://i.postimg.cc/ZKwLg2Gw/367-14.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-base-str')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-base-str')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 详细文档

BibTeX引用和引用信息

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}