khmer-trocr-ocr-v1.0开源模型 - 免费部署精准识别高棉语人名及脚本

首页

Khmer Trocr Ocr V1.0

由 songhieng 开发

基于Microsoft TrOCR微调的高棉语人名识别模型，专门用于高棉语脚本的光学字符识别任务。

文字识别

Transformers

其他开源协议:Apache-2.0 #高棉语OCR #人名识别 #身份证识别

下载量 229

发布时间 : 5/27/2025

模型简介

该模型是针对高棉语人名识别优化的光学字符识别系统，采用VisionEncoderDecoder架构，结合了视觉编码和解码能力。

模型特点

特定领域优化

针对高棉语人名识别进行了微调，能更精准地识别高棉语人名

架构先进

采用VisionEncoderDecoderModel（ViT + RoBERTa）架构，结合了视觉编码和解码能力

语言支持

专门为高棉语脚本的光学字符识别任务设计

模型能力

高棉语文本识别

图像到文本转换

人名识别

使用案例

身份识别

高棉语身份证识别

识别高棉语身份证上的人名信息

🚀 高棉语TrOCR光学字符识别系统 📝🇰🇭

本项目是基于microsoft/trocr-base-stage1微调后的版本，专门用于识别高棉语人名。它通过使用高棉语个人姓名的合成图像 - 文本对进行训练。

🚀 快速开始

安装所需的软件包

pip install transformers torch pillow

Python推理示例

import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# 加载模型和处理器
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")

# 加载并处理图像
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values

# 如果有可用的GPU则移至GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)

# 生成预测结果
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print("🔤 预测结果:", predicted_text)

✨ 主要特性

特定领域优化：针对高棉语人名识别进行了微调，能更精准地识别高棉语人名。
架构先进：采用了VisionEncoderDecoderModel（ViT + RoBERTa）架构，结合了视觉编码和解码能力。
支持高棉语：专门为高棉语脚本的光学字符识别任务设计。

📦 安装指南

使用以下命令安装所需的依赖包：

pip install transformers torch pillow

💻 使用示例

基础用法

import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# 加载模型和处理器
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")

# 加载并处理图像
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values

# 如果有可用的GPU则移至GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)

# 生成预测结果
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print("🔤 预测结果:", predicted_text)

📚 详细文档

📌 模型详情

属性	详情
架构	VisionEncoderDecoderModel（ViT + RoBERTa）
基础模型	`microsoft/trocr-base-stage1`
语言	高棉语 (`km`)
任务	光学字符识别（OCR） — 专门针对高棉语脚本