trocr-small-spanish开源OCR模型 - 免费部署识别西班牙语印刷体文字

首页

Trocr Small Spanish

由 qantev 开发

基于Transformer架构优化的西班牙语印刷体OCR模型，不支持手写体识别

文字识别

Transformers

支持多种语言开源协议:MIT #西班牙语OCR #印刷体识别 #Transformer架构

下载量 270

发布时间 : 2/22/2024

模型简介

TrOCR小型模型专为西班牙语印刷文本识别优化，采用视觉Transformer编码器和文本Transformer解码器架构，在自建数据集上微调实现

模型特点

西班牙语专项优化

基于200万条西班牙语样本的自建数据集训练，针对印刷体字符识别优化

高效架构设计

采用图像Transformer编码器提取视觉特征，文本Transformer解码器生成序列，实现端到端识别

实时数据增强

训练时动态生成增强图像，相比预存图像方案效率提升显著

模型能力

印刷体文字识别

西班牙语文本提取

短句级OCR处理

图像到文本转换

使用案例

文档数字化

维基百科内容提取

从西班牙语维基百科页面图像中提取文本内容

字符错误率6.32%（大型模型）

表单处理

XFUND数据集处理

西班牙语表单文档的文本识别

显著优于EasyOCR（CER降低12.84%）

🚀 TrOCR（小型模型）

我们推出了小型TrOCR模型的新版本，该模型在自行生成的西班牙语数据集上进行了微调。TrOCR架构最初由Li等人在论文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出，相关代码可在仓库中获取。

此模型专门用于印刷字体识别，不支持手写识别。

🚀 快速开始

本模型可用于图像文字识别任务。以下是在PyTorch中使用该模型的示例代码：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

url = 'https://huggingface.co/qantev/trocr-small-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('qantev/trocr-small-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-small-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

基于Transformer架构，结合图像Transformer编码器和文本Transformer解码器，可利用预训练模型进行图像理解和语言建模，实现了先进的性能。
专门针对印刷字体进行优化，不支持手写识别。
基于自行生成的西班牙语数据集进行微调，适用于西班牙语的光学字符识别任务。

📚 详细文档

模型介绍

TrOCR模型架构基于Transformer框架，由图像Transformer作为编码器，文本Transformer作为解码器组成。

模型架构

编码器接收输入图像，将其分解为图像块并处理以获取视觉特征。解码器利用这些特征以自回归的方式生成词块序列，受视觉信息和先前预测的引导。

这种设计使TrOCR能够利用预训练模型进行图像理解和语言建模，从而实现了先进的性能。

数据集

由于没有公开可用的西班牙语OCR训练和测试数据集，我们决定创建自己的数据集。具体做法是抓取131,000个随机的维基百科页面，并提取2,000,000个样本，范围从单字实例到10个单词的句子。

随后，我们从这些样本中人工生成图像，并应用了各种数据增强技术，得到了如下结果：

生成的数据集

注意：我们发现训练期间实时生成图像比从现有文件夹中读取图像更快。

指标

遗憾的是，目前没有专门用于评估西班牙语光学字符识别（OCR）性能的基准数据集。为了展示我们OCR的有效性，我们在XFUND西班牙语数据集上对小型、基础和大型模型进行了基准测试。此外，我们还与EasyOCR进行了比较分析。

模型	字符错误率（CER）	单词错误率（WER）
EasyOCR	0.1916	0.3353
qantev/trocr-small-spanish	0.1059	0.2545
qantev/trocr-base-spanish	0.0732	0.2028
qantev/trocr-large-spanish	0.0632	0.1817

（注意：XFUND数据集中包含标注错误的数据，可能会影响此基准测试的结果。）

预期用途和限制

虽然此模型可免费使用，但需要注意的是，它未在手写文本上进行训练，因此可能无法准确识别手写内容。此外，在准确读取两行文本或垂直文本方面，其性能有限。

此模型必须与文本检测模型结合使用。

📄 许可证

本模型采用MIT许可证。

👨‍💼 招聘信息

我们正在各个级别招聘（包括全职研究人员和实习生）！如果您有兴趣与我们一起从事计算机视觉、自然语言处理和文档人工智能方面的工作，请将简历发送至jobs@qantev.com，或申请Qantev招聘页面上的众多职位。

📞 联系我们

如有任何问题，请通过research [at] qantev [dot] com与我们联系。

📖 引用

@misc{lauar2024spanishtrocrleveragingtransfer,
      title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation}, 
      author={Filipe Lauar and Valentin Laurent},
      year={2024},
      eprint={2407.06950},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.06950}, 
}