M

Mgp Str Base

由 alibaba-damo 开发
MGP-STR是一个纯视觉场景文本识别模型,通过多粒度预测实现高效OCR。
下载量 4,981
发布时间 : 11/23/2022

模型简介

该模型用于文本图像的光学字符识别(OCR),采用ViT架构和特别设计的A^3模块,支持字符、子词和单词级别的多粒度预测。

模型特点

多粒度预测
同时进行字符、子词和单词级别的预测,并通过融合策略合并结果
纯视觉架构
不依赖语言模型,仅使用视觉特征进行文本识别
A^3模块
特别设计的注意力模块,用于选择并整合有意义的令牌组合

模型能力

图像转文本
场景文本识别
光学字符识别(OCR)

使用案例

文档数字化
扫描文档识别
将扫描的文档图像转换为可编辑文本
高精度识别打印体文字
场景文本识别
街景文字识别
识别照片中的街道标志、商店招牌等文本
可处理不同字体和背景的文本
AIbase
智启未来,您的人工智能解决方案智库
简体中文