许可证:Apache-2.0
语言:
- 芬兰语
- 瑞典语
评估指标:
- CER(字符错误率)
任务标签:图像转文本
模型描述
模型名称: multicentury-htr-model
模型类型: 基于Transformer的OCR(TrOCR)
基础模型: microsoft/trocr-large-handwritten
用途: 手写文本识别
支持语言: 瑞典语、芬兰语
许可证: Apache 2.0
该模型是基于microsoft/trocr-large-handwritten微调的版本,专用于识别手写文本。其训练数据涵盖17至20世纪多种手写样本,适用于文档数字化、表格识别或其他涉及手写文本提取的任务。
模型架构
采用Transformer架构(TrOCR),包含编码器-解码器结构:
使用场景
本模型专为手写文本识别设计,适用于:
- 文档数字化(如档案整理、历史手稿转录)
- 手写笔记转写
训练数据
训练数据集包含超过76万行手写文本样本,覆盖多样化的书写风格和文本类型。
评估结果
在测试集上的关键指标如下:
字符错误率(CER): 3.2
测试集规模: 约94,900行文本
使用方法
可通过Hugging Face的pipeline函数或手动加载处理器与模型使用:
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")
image = Image.open("path_to_image.png")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
局限性
- 主要训练数据为基本拉丁字母(A-Z, a-z)及北欧特殊字符(å, ä, ö)
- 未涵盖非拉丁字母(如汉字、西里尔文、阿拉伯文等)
- 对芬兰语、瑞典语和英语外的语言泛化能力有限
未来改进
- 扩展训练数据:纳入更多书写风格和语言
- 领域优化:针对特定领域手写体微调
引用规范
若使用本模型,请按以下格式引用:
@misc{multicentury_htr_model_2024,
author = {Kansallisarkisto},
title = {Multicentury HTR Model: Handwritten Text Recognition},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}
模型卡作者
作者:芬兰国家档案馆
联系方式:riikka.marttila@kansallisarkisto.fi, ilkka.jokipii@kansallisarkisto.fi