T

Trocr Large Spanish

由 qantev 开发
基于Transformer架构的印刷体西班牙语OCR模型,专为印刷字体优化,不支持手写体识别
下载量 298
发布时间 : 2/22/2024
模型介绍
内容详情
替代品

模型简介

TrOCR是一种基于Transformer的光学字符识别模型,通过图像Transformer编码器和文本Transformer解码器实现图像到文字的转换。本版本针对西班牙语进行了专门优化。

模型特点

西班牙语优化
专门针对西班牙语文本识别进行训练和优化
印刷体专用
专为印刷字体设计,识别印刷文本效果优异
Transformer架构
采用先进的Transformer架构,结合图像理解和语言建模能力
大规模训练数据
使用自建的200万西班牙语样本数据集训练

模型能力

印刷体文字识别
西班牙语文本提取
图像转文字
多词句识别

使用案例

文档数字化
维基百科内容提取
从西班牙语维基百科页面图像中提取文本内容
商业应用
发票处理
自动识别西班牙语发票中的文本信息