T

Trocr Base Printed

由 microsoft 开发
TrOCR是基于Transformer的光学字符识别模型,专为单行文本图像识别设计,采用编码器-解码器架构
下载量 184.84k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型结合了图像Transformer编码器和文本Transformer解码器,适用于印刷体文本的光学字符识别任务,特别针对SROIE数据集进行了微调

模型特点

Transformer架构
采用先进的Transformer架构处理图像和文本序列,实现端到端OCR
预训练权重初始化
图像编码器使用BEiT预训练权重,文本解码器使用RoBERTa预训练权重
印刷体文本优化
专门针对印刷体文本识别进行了优化,在SROIE数据集上表现良好

模型能力

单行文本图像识别
印刷体字符识别
端到端OCR处理

使用案例

文档数字化
收据识别
自动识别扫描收据中的文本信息
在SROIE数据集上表现良好
发票处理
从发票图像中提取关键字段信息
适用于结构化文档处理
自动化办公
表格识别
将印刷体表格转换为可编辑文本
适合处理格式规范的文档