trocr-base-printed合成数据集OCR模型 - 开源免费精准识别印刷文本

首页

Trocr Base Printed Synthetic Dataset Ocr

由 DunnBC22 开发

基于microsoft/trocr-base-printed微调的印刷文本识别模型，专为合成OCR数据集优化

文字识别

Transformers

英语#印刷体OCR #高精度字符识别 #合成数据训练

下载量 65

发布时间 : 3/27/2023

模型简介

该模型用于读取印刷文本标签，在合成OCR数据集上表现出色

模型特点

高精度OCR

在合成数据集上达到0.003的字符错误率（CER）

印刷文本优化

专门针对印刷文本标签识别进行优化

基于Transformer架构

采用先进的TrOCR架构，结合视觉和语言理解能力

模型能力

印刷文本识别

图像到文本转换

标签信息提取

使用案例

文档数字化

标签信息提取

从产品标签、包装等印刷文本中提取信息

高精度识别印刷文本内容

自动化处理

自动化数据录入

将印刷文档自动转换为可编辑文本

减少人工录入错误

🚀 trocr-base-printed-synthetic_dataset_ocr

该模型是基于microsoft/trocr-base-printed在未知数据集上微调得到的版本，可用于识别印刷文本标签。

🚀 快速开始

本模型可用于读取带有印刷文本的标签。

✨ 主要特性

基于microsoft/trocr-base-printed进行微调。
可用于图像到文本的转换任务。

📚 详细文档

模型描述

此模型代码的链接如下：点击查看

预期用途和限制

该模型可用于读取带有印刷文本的标签。

训练和评估数据

训练此模型所使用的数据集链接如下：点击查看

训练数据集的字符长度：训练数据集的输入字符长度

评估数据集的字符长度：评估数据集的输入字符长度

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：1
混合精度训练：Native AMP

训练结果

字符错误率（CER） = 0.003（实际为 0.002896524170994806）

框架版本

Transformers 4.26.1
Pytorch 1.13.1+cu116
Datasets 2.10.1
Tokenizers 0.13.2

模型检查点

@misc{li2021trocr, title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei}, year={2021}, eprint={2109.10282}, archivePrefix={arXiv}, primaryClass={cs.CL}}

指标（字符错误率 [CER]）

@inproceedings{morris2004, author = {Morris, Andrew and Maier, Viktoria and Green, Phil}, year = {2004}, month = {01}, pages = {}, title = {From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition.} }