ko-trocr开源OCR模型 - 精准支持韩语初声识别，解决传统识别不足

首页

Ko Trocr

由 ddobokki 开发

支持韩语初声识别的OCR模型，采用改进分词器解决传统TrOCR对韩语初声识别不足的问题

文字识别

Transformers

韩语开源协议:Apache-2.0 #韩语OCR #初声识别优化 #行政文档处理

下载量 2,035

发布时间 : 3/9/2023

模型简介

基于TrOCR架构优化的韩语光学字符识别模型，专门解决韩语初声识别问题，适用于韩语文档的数字化处理

模型特点

韩语初声支持

采用特殊分词器解码器，确保韩语初声不会显示为UNK未知字符

专业比赛验证

技术方案经过2023教元集团AI OCR挑战赛验证

高质量训练数据

使用AI Hub平台的专业韩语OCR数据集进行训练

模型能力

韩语文本识别

印刷体文字提取

文档数字化处理

使用案例

文档处理

公共行政文档数字化

将纸质行政文档转换为可编辑的电子文本

准确识别包含复杂韩文字符的官方文档

印刷材料转录

从书籍、杂志等印刷材料中提取韩语文本

🚀 韩语Trocr模型

该Trocr模型使用了采用声母的分词器的解码器模型，解决了原Trocr模型因解码器分词器中无对应字符而无法进行OCR识别的问题，避免了声母被识别为UNK的情况。此模型还运用了在2023教师群体AI OCR挑战赛中积累的经验。

🚀 快速开始

以下是该模型的使用示例，展示了如何使用该模型对图像进行OCR识别。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
import unicodedata
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

url = "https://raw.githubusercontent.com/ddobokki/ocr_img_example/master/g.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text = unicodedata.normalize("NFC", generated_text)
print(generated_text)

✨ 主要特性

解决了原Trocr模型无法对分词器中不存在字符进行OCR识别的问题，避免声母被识别为UNK。
运用了在2023教师群体AI OCR挑战赛中获得的经验。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
import unicodedata
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

url = "https://raw.githubusercontent.com/ddobokki/ocr_img_example/master/g.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text = unicodedata.normalize("NFC", generated_text)
print(generated_text)