trocr-base-printed开源OCR模型 - 免费部署精准识别印刷体文本

首页

Trocr Base Printed

由 philschmid 开发

基于microsoft/trocr-base-printed的分支模型，专注于印刷体文本的OCR识别任务。

文字识别

PyTorch

#印刷体OCR #图像转文本 #端点部署

下载量 14

发布时间 : 8/17/2022

模型简介

该模型是一个OCR（光学字符识别）模型，专门用于从图像中识别印刷体文本。它基于Transformer架构，能够高效地将图像中的文本转换为可编辑的文本格式。

模型特点

印刷体文本识别

专门优化用于识别印刷体文本，具有较高的准确率。

自定义推理端点

支持通过自定义pipeline部署为推理端点，便于集成到生产环境。

简单易用的API

提供清晰的cURL和Python请求示例，便于快速集成和使用。

模型能力

图像转文本

印刷体文字识别

端到端文本提取

使用案例

文档数字化

印刷文档转换

将扫描的印刷文档转换为可编辑的文本格式。

准确提取文档中的文本内容

自动化处理

表单处理

自动识别和提取印刷表单中的信息。

提高数据处理效率

🚀 基于 `OCR` 推理端点的 microsoft/trocr-base-printed 分支项目

本项目是一个基于 OCR（光学字符识别）推理端点的项目，它复刻自 microsoft/trocr-base-printed。该仓库为 🤗 Inference Endpoints 实现了一个用于 ocr-detection 的 自定义 任务。自定义管道的代码位于 pipeline.py 中。

若要将此模型部署为推理端点，你需要选择 Custom 任务以使用 pipeline.py 文件。请务必 再次确认是否已正确选择。

🚀 快速开始

✨ 主要特性

为 🤗 Inference Endpoints 实现了 ocr-detection 的自定义任务。
提供了 cURL 和 Python 两种请求示例，方便不同用户使用。

📦 安装指南

此部分文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

端点期望图像以 二进制 形式提供。以下是 cURL 和 Python 的使用示例。

cURL

获取图像

wget https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg -O test.jpg

发送 cURL 请求

curl --request POST \
  --url https://{ENDPOINT}/ \
  --header 'Content-Type: image/jpg' \
  --header 'Authorization: Bearer {HF_TOKEN}' \
  --data-binary '@test.jpg'

预期输出

{"text": "INDLUS THE"}

Python

获取图像

wget https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg -O test.jpg

运行请求

import json
from typing import List
import requests as r
import base64

ENDPOINT_URL=""
HF_TOKEN=""

def predict(path_to_image:str=None):
    with open(path_to_image, "rb") as i:
      b = i.read()
    headers= {
        "Authorization": f"Bearer {HF_TOKEN}",
        "Content-Type": "image/jpeg" # content type of image
    }
    response = r.post(ENDPOINT_URL, headers=headers, data=b)
    return response.json()

prediction = predict(path_to_image="test.jpg")

prediction