🚀 TrOCR(基础尺寸模型)
我们推出了基础版TrOCR模型的新版本,该版本在自行生成的西班牙语文本数据集上进行了微调。TrOCR架构最初由Li等人在论文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出,相关代码可在关联仓库中获取。此模型专门用于印刷字体识别,不支持手写识别。
🚀 快速开始
此模型可用于图像转文本任务,以下是在PyTorch中使用该模型的示例代码:
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-base-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-base-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-base-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 基于Transformer架构:TrOCR模型架构基于Transformer框架,由图像Transformer作为编码器,文本Transformer作为解码器。
- 利用预训练模型:能够利用预训练模型进行图像理解和语言建模,从而实现最先进的性能。
- 针对西班牙语微调:在自行生成的西班牙语文本数据集上进行了微调,适用于西班牙语的光学字符识别任务。
📚 详细文档
模型介绍
TrOCR模型架构基于Transformer框架,由图像Transformer作为编码器,文本Transformer作为解码器。
编码器接收输入图像,将其分解为图像块并处理以获取视觉特征。解码器利用这些特征,以自回归的方式生成词片序列,受视觉信息和先前预测的引导。这种设计使TrOCR能够利用预训练模型进行图像理解和语言建模,从而实现最先进的性能。
数据集
由于没有公开可用的西班牙语OCR训练和测试数据集,我们选择创建自己的数据集。具体做法是抓取了131,000个随机维基百科页面,并提取了2,000,000个样本,范围从单字实例到10个单词的句子。
随后,我们从这些样本中人工生成图像,并应用了各种数据增强技术,得到了如下结果:
注意:我们发现训练期间实时生成图像比从现有文件夹中读取图像更快。
评估指标
遗憾的是,目前没有专门用于评估西班牙语光学字符识别(OCR)性能的既定基准数据集。为了说明我们的OCR效果,我们展示了在XFUND西班牙文数据集上对小、基础和大模型的基准测试结果。此外,我们还与EasyOCR进行了比较分析。
属性 |
详情 |
模型类型 |
TrOCR(基础尺寸模型) |
训练数据 |
抓取131,000个随机维基百科页面,提取2,000,000个样本生成的图像 |
模型 |
CER |
WER |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
⚠️ 重要提示
请注意,XFUND数据集包含标注错误的数据,这可能会影响此基准测试的结果。
预期用途和局限性
虽然此模型可免费使用,但需要注意的是,它未在手写文本上进行训练,因此可能无法准确识别手写内容。此外,在准确读取两行文本或垂直文本方面,其能力有限。此模型必须与文本检测模型结合使用。
📄 许可证
本项目采用MIT许可证。
📎 引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
🤝 联系我们
如有任何问题或建议,请通过research [at] qantev [dot] com与我们联系。
👨💼 招聘信息
我们正在各个级别招聘(包括全职研究人员和实习生)!如果您有兴趣与我们一起从事计算机视觉、自然语言处理和文档人工智能方面的工作,请将您的简历发送至jobs@qantev.com,或在Qantev招聘板上申请众多开放职位。