T

Trocr Large Str

由 microsoft 开发
TrOCR是一个基于Transformer的光学字符识别模型,专为单行文本图像设计,在多个标准数据集上进行了微调。
下载量 571
发布时间 : 9/8/2022
模型介绍
内容详情
替代品

模型简介

TrOCR模型结合了图像Transformer编码器和文本Transformer解码器,能够高效地从图像中识别文本内容。

模型特点

基于Transformer架构
采用先进的Transformer架构,结合图像和文本处理能力
多数据集微调
在IC13、IC15、IIIT5K和SVT等多个标准数据集上进行了微调
预训练模型初始化
图像编码器使用BEiT初始化,文本解码器使用RoBERTa初始化

模型能力

单行文本图像识别
光学字符识别
图像到文本转换

使用案例

文档数字化
扫描文档识别
将扫描的纸质文档转换为可编辑文本
高准确率的文本转换
场景文本识别
街景文字识别
识别照片中的街道标志和广告文字
可识别各种字体和背景的文字