T

Trocr Large Printed

由 microsoft 开发
基于Transformer的光学字符识别模型,适用于单行印刷体文本识别
下载量 295.59k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

TrOCR采用编码器-解码器架构,结合图像Transformer和文本Transformer,专门用于光学字符识别(OCR)任务。该版本针对印刷体文本进行了优化。

模型特点

混合架构设计
结合视觉Transformer编码器和文本Transformer解码器,实现端到端OCR
预训练权重初始化
图像编码器继承BEiT权重,文本解码器继承RoBERTa权重,提升模型性能
印刷体文本优化
专门针对印刷体文本识别进行微调,在SROIE数据集上表现优异

模型能力

印刷体文本识别
单行文本图像处理
端到端字符识别

使用案例

文档数字化
收据识别
自动识别扫描收据中的文本信息
在SROIE数据集上表现良好
表格处理
提取表格文档中的文字内容
工业应用
产品标签识别
自动读取产品标签上的印刷文字