M

Multicentury Htr Model

由 Kansallisarkisto 开发
基于Transformer的手写文本识别模型,专为瑞典语和芬兰语设计,适用于历史文档数字化。
下载量 39
发布时间 : 10/7/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于microsoft/trocr-large-handwritten微调的版本,专注于识别17至20世纪的手写文本,支持文档数字化和手写笔记转写。

模型特点

多世纪手写支持
训练数据涵盖17至20世纪的手写样本,适应多样化的书写风格。
北欧语言优化
专门针对芬兰语和瑞典语的特殊字符(如å, ä, ö)进行优化。
高精度识别
在测试集上达到3.2的字符错误率(CER),表现优异。

模型能力

手写文本识别
历史文档转录
表格数据提取

使用案例

档案数字化
历史手稿转录
将档案馆中的历史手写文档转换为可搜索的数字化文本。
CER 3.2(测试集94,900行文本)
个人应用
手写笔记转写
将个人手写笔记转换为电子文本格式。