标签:
- trocr
- 图像转文字
- pytorch
微件:
- 示例图片: "example_1.png"
示例标题: 示例1
- 示例图片: "example_2.jpg"
示例标题: 示例2
- 示例图片: "example_3.jpeg"
示例标题: 示例3
许可证: mit
语言:
- 西班牙语
- 英语
评估指标:
- 字符错误率
- 单词错误率
库名称: transformers
流水线标签: 图像转文字
TrOCR(大尺寸模型)
我们推出了新版大型TrOCR模型,该模型基于自建的西班牙语数据集进行了微调。TrOCR架构最初由Li等人在论文TrOCR: 基于Transformer的预训练模型光学字符识别中提出,并在相关代码库中开源。
本模型专为印刷字体优化,不支持手写体识别。
招聘启事
我们正在招聘各层级人才(包括全职研究员和实习生)!如果您有兴趣与我们在计算机视觉、自然语言处理和文档AI领域合作,请将简历发送至jobs@qantev.com,或前往Qantev招聘平台申请众多开放职位。
模型介绍
TrOCR模型架构基于Transformer框架,包含作为编码器的图像Transformer和作为解码器的文本Transformer。
编码器接收输入图像,将其分解为图像块并处理以获得视觉特征。解码器则利用这些特征,在视觉信息和先前预测的引导下,以自回归方式生成字符片段序列。
这种设计使TrOCR能够充分利用预训练模型在图像理解和语言建模方面的优势,从而实现最先进的性能。
数据集
由于缺乏公开可用的西班牙语OCR训练测试数据集,我们选择自建数据集。具体包括:
- 抓取131,000个随机维基百科页面
- 提取2,000,000个样本(从单词到10词句子)
- 人工生成样本图像并应用多种数据增强技术
生成效果示例如下:
注:我们发现训练时实时生成图像比从预存文件夹读取更快。
性能指标
目前西班牙语OCR领域缺乏标准评测数据集。为展示模型效果,我们在西班牙语XFUND数据集上测试了不同规模模型,并与EasyOCR对比:
模型 |
字符错误率 |
单词错误率 |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
(注意:XFUND数据集存在标注错误,可能影响评测结果)
使用场景与限制
本模型虽可自由使用,但需注意:
- 未经手写文本训练,识别手写体效果欠佳
- 对双行文本或垂直文本识别能力有限
- 需配合文本检测模型使用
使用方式
PyTorch调用示例:
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-large-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-large-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-large-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
引用文献
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: 基于迁移学习的语言适配},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
联系我们
research[at]qantev[dot]com