OCR_corrector开源模型 - 免费部署修正意大利语文本OCR约93%错误

首页

OCR Corrector

由 DeepMount00 开发

该模型是专为意大利语设计的实验性序列到序列架构，旨在修正低质量光学字符识别（OCR）系统在意大利文本上产生的约93%的错误。

文本生成

Transformers

其他开源协议:Apache-2.0 #意大利语OCR纠错 #序列到序列架构 #历史文献处理

下载量 20

发布时间 : 4/10/2024

模型简介

通过输入原始的OCR扫描文本，模型将输出修正后的文本版本，显著减少错误并提升可读性和准确性。

模型特点

高准确率

能够修正约93%的OCR错误，显著提升文本质量。

意大利语专用

专门针对意大利语文本训练，优化了意大利语OCR错误的修正能力。

序列到序列架构

采用序列到序列（Seq2Seq）架构，适合处理文本转换任务。

模型能力

OCR文本纠错

意大利语文本修正

序列到序列文本转换

使用案例

历史文献数字化

意大利历史文献修正

处理扫描质量低、OCR错误率高的意大利历史文献，提升数字化文本的准确性。

修正约93%的OCR错误

档案管理

档案文本修正

修正档案扫描文本中的OCR错误，提高档案的可读性和可用性。

显著减少错误并提升可读性

🚀 意大利语OCR纠错序列到序列模型

本模型是专门为意大利语设计的实验性序列到序列架构的首个版本。它能够纠正低质量光学字符识别（OCR）系统产生的约93%的错误，这些系统在处理意大利语文本时往往表现不佳。该模型以原始的OCR扫描文本作为输入，输出纠正后的文本，显著减少错误，提高可读性和准确性。

🚀 快速开始

模型详情

此模型是专门为意大利语设计的实验性序列到序列架构的首个版本。它旨在纠正低质量光学字符识别（OCR）系统产生的约93%的错误，这些系统在处理意大利语文本时表现欠佳。模型以原始的OCR扫描文本为输入，输出纠正后的文本，大幅减少错误，提升可读性与准确性。

预期用途

主要用途：该模型用于处理和纠正使用OCR技术数字化的意大利语文本。尤其适用于低质量扫描的文本，这类文本的OCR错误率明显较高。
适用用户：它是为处理意大利历史文献、书籍以及任何存在大量OCR错误的数字化材料的开发者、研究人员和档案管理员设计的。

局限性

虽然该模型能纠正约93%的OCR错误，但在某些特定类型的错误或特定上下文中，其性能可能会降低。
该模型是专门针对意大利语文本进行训练的，对于其他语言的文本或包含大量非意大利语的文本，其表现可能不佳。

如何使用

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = "cuda" if torch.cuda.is_available() else "cpu"
MODEL_NAME = "DeepMount00/OCR_corrector"

model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model.to(device)
my_text = "In un'epca lontnaa, un re goernava le sue tere con saggez2a e giustiia. Sotot il suo regno, il rgeno prosperava e la getne era flice. Ma un gionro, un drgoa feroce attc√≤ il regno, semniando ditruzione e paurra tra i suoi abtanti."
inputs = tokenizer(my_text, return_tensors="pt").to(device)
outputs = model.generate(input_ids=inputs['input_ids'],
               attention_mask=inputs['attention_mask'],
               num_beams=2, max_length=1050, top_k=10)
clean_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(clean_text)