T

Trocr Base Printed Fr

由 agomberto 开发
基于Transformer的法语印刷体OCR模型,填补了TrOCR模型法语版本的空白
下载量 110
发布时间 : 5/4/2023
模型介绍
内容详情
替代品

模型简介

这是一个法语印刷体文本识别模型,基于TrOCR架构开发,专门用于将法语印刷体图像转换为文本。

模型特点

法语专用OCR
专门针对法语文本识别优化的TrOCR变体,填补了原版TrOCR缺乏法语支持的空白
混合数据训练
使用来自7个不同数据源的72.3万条法语文本样本进行训练,覆盖多种文本类型
优化的架构组合
采用DeiT视觉编码器和CamemBERT文本解码器的组合,相比原版TrOCR更易训练

模型能力

印刷体法语文本识别
图像到文本转换
法语文档数字化

使用案例

文档处理
法语印刷文档数字化
将扫描的法语文档转换为可编辑文本
CER 0.13, WER 0.26
法语书籍OCR
从法语书籍扫描图像中提取文本内容
自动化处理
法语表单处理
自动识别和提取印刷体法语表单数据