trocr-base-printed-fr开源OCR模型 - 免费识别法语印刷体文字，填补版本空白

首页

Trocr Base Printed Fr

由 agomberto 开发

基于Transformer的法语印刷体OCR模型，填补了TrOCR模型法语版本的空白

图像生成文本

Transformers

法语开源协议:MIT #法语OCR #印刷体识别 #Transformer架构

下载量 110

发布时间 : 5/4/2023

模型简介

这是一个法语印刷体文本识别模型，基于TrOCR架构开发，专门用于将法语印刷体图像转换为文本。

模型特点

法语专用OCR

专门针对法语文本识别优化的TrOCR变体，填补了原版TrOCR缺乏法语支持的空白

混合数据训练

使用来自7个不同数据源的72.3万条法语文本样本进行训练，覆盖多种文本类型

优化的架构组合

采用DeiT视觉编码器和CamemBERT文本解码器的组合，相比原版TrOCR更易训练

模型能力

印刷体法语文本识别

图像到文本转换

法语文档数字化

使用案例

文档处理

法语印刷文档数字化

将扫描的法语文档转换为可编辑文本

CER 0.13, WER 0.26

法语书籍OCR

从法语书籍扫描图像中提取文本内容

自动化处理

法语表单处理

自动识别和提取印刷体法语表单数据

🚀 用于法语的TrOCR模型

本项目为法语场景训练了TrOCR模型，解决了TrOCR尚未发布法语版本的问题，为法语的光学字符识别提供了可用方案。

🚀 快速开始

TrOCR尚未发布法语版本，因此我们为了概念验证（PoC）的目的训练了一个法语模型。基于此模型，建议收集更多数据以进行第一阶段的额外训练，或者进行第二阶段的微调。

它是论文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 中介绍的英文TrOCR模型的一个特殊案例，该论文由Li等人撰写，并首次在此仓库中发布。

得益于 daekun-ml 和 Niels Rogge，他们的教程和代码使我们能够发布此模型。

✨ 主要特性

针对法语进行训练，为法语的光学字符识别提供支持。
基于已有的英文TrOCR模型架构进行改进。

📦 安装指南

文档未提及具体安装步骤，可参考作者的GitHub仓库：https://github.com/agombert/trocr-base-printed-fr/

💻 使用示例

基础用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten") 
model = VisionEncoderDecoderModel.from_pretrained("agomberto/trocr-base-printed-fr")
tokenizer = AutoTokenizer.from_pretrained("agomberto/trocr-base-printed-fr")

url = "https://github.com/agombert/trocr-base-printed-fr/blob/main/sample_imgs/0.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=32)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] 
print(generated_text)

📚 详细文档

数据收集

文本数据

我们通过从以下数据集随机采样，创建了约72.3万个示例的训练数据：

MultiLegalPile - 9万个
French book Reviews - 2万个
WikiNeural - 8.3万个
Multilingual cc news - 11.9万个
Reviews Amazon Multi - 15.3万个
Opus Book - 7万个
BerlinText - 3.8万个

我们收集了每个数据集的部分数据，然后随机切割句子以收集最终的训练集。

图像数据

图像数据是使用TrOCR论文中介绍的TextRecognitionDataGenerator（https://github.com/Belval/TextRecognitionDataGenerator）生成的。以下是生成图像的代码片段：

python3 ./trdg/run.py -i ocr_dataset_poc.txt -w 5 -t {num_cores} -f 64 -l ko -c {num_samples} -na 2 --output_dir {dataset_dir}

模型训练

基础模型

编码器模型使用了 facebook/deit-base-distilled-patch16-384，解码器模型使用了 camembert-base。这比从 microsoft/trocr-base-stage1 开始训练权重更容易。

参数

我们使用了启发式参数，没有进行单独的超参数调优。

学习率 = 4e-5
训练轮数 = 25
混合精度训练（fp16） = True
最大长度 = 32

开发集结果

对于开发集，我们得到了以下结果：

测试集大小：7.2万个示例
字符错误率（CER）：0.13
单词错误率（WER）：0.26
验证损失：0.424

🔧 技术细节

本项目基于TrOCR模型架构，针对法语场景进行了定制化训练。在数据收集阶段，通过整合多个公开数据集的文本数据，并使用TextRecognitionDataGenerator生成图像数据。在模型训练方面，选择了合适的编码器和解码器模型，并使用启发式参数进行训练，最终在开发集上取得了一定的效果。

📄 许可证

本项目采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文