T

Trocr Small Spanish

由 qantev 开发
基于Transformer架构优化的西班牙语印刷体OCR模型,不支持手写体识别
下载量 270
发布时间 : 2/22/2024

模型简介

TrOCR小型模型专为西班牙语印刷文本识别优化,采用视觉Transformer编码器和文本Transformer解码器架构,在自建数据集上微调实现

模型特点

西班牙语专项优化
基于200万条西班牙语样本的自建数据集训练,针对印刷体字符识别优化
高效架构设计
采用图像Transformer编码器提取视觉特征,文本Transformer解码器生成序列,实现端到端识别
实时数据增强
训练时动态生成增强图像,相比预存图像方案效率提升显著

模型能力

印刷体文字识别
西班牙语文本提取
短句级OCR处理
图像到文本转换

使用案例

文档数字化
维基百科内容提取
从西班牙语维基百科页面图像中提取文本内容
字符错误率6.32%(大型模型)
表单处理
XFUND数据集处理
西班牙语表单文档的文本识别
显著优于EasyOCR(CER降低12.84%)
AIbase
智启未来,您的人工智能解决方案智库
简体中文