标签:
- latex-ocr
- 数学公式识别
- 数学公式光学识别
- mfr
- 图像转文本
- p2t
许可证: mit
库名称: transformers
模型卡片: Pix2Text-MFR
来自Pix2Text (P2T)的数学公式识别(MFR)模型。
模型详情
该MFR模型采用了微软开发的TrOCR架构,以其初始值为基础,通过数学公式图像数据集进行了重新训练。
训练完成的MFR模型能够将数学公式图像转换为LaTeX文本表示。更多详情请参阅:Pix2Text V1.0新版发布:最佳开源公式识别模型 | Breezedeus.com。
使用与限制
- 用途:此模型专为数学公式识别设计,可将输入的数学公式图像转换为LaTeX文本表示。
- 限制:由于模型训练数据集中于数学公式图像,识别其他类型图像时可能表现不佳。
文档
示例
印刷体数学公式图像

手写体数学公式图像

模型使用
方法一:直接使用模型
此方法无需安装pix2text,但仅能识别纯公式图像。
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq
processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')
方法二:使用Pix2Text
此方法需安装pix2text,借助Pix2Text中的数学公式检测模型(MFD),不仅能识别纯公式图像,还能识别包含文本的混合图像。
$ pip install pix2text>=1.1
from pix2text import Pix2Text, merge_line_texts
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)
outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')
print(outs2)
方法三:使用Notebook
通过此Notebook体验Pix2Text:https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb。
性能表现
测试数据的原始图像来源于Pix2Text在线服务用户上传的真实数据。首先选取特定时间段内的用户真实数据,然后利用Pix2Text中的数学公式检测模型(MFD)检测并截取这些图像中的数学公式部分,随机选取部分公式图像进行人工标注,形成测试数据集。下图展示了测试数据集中的部分样例图片。显然,测试数据集中的图像非常多样化,包括从单个字母到公式组乃至矩阵的各种长度和复杂度的数学公式。本测试数据集包含485
张图片。

以下是各模型在此测试数据集上的字符错误率(CER,越低越好)。对真实标注结果及各模型输出均进行了标准化处理,以确保空格等无关因素不影响测试结果。对于Texify的识别结果,首先去除了公式的首尾符号$
或$$
。

如图所示,Pix2Text V1.0 MFR开源免费版模型已显著优于之前版本的付费模型。与V1.0 MFR开源免费模型相比,Pix2Text V1.0 MFR付费模型的精度进一步提升。
Texify更适合识别标准排版的图像,对包含单字母的图像识别效果较差。这也是Texify在此测试数据集上表现不如Latex-OCR的主要原因。
反馈
如有关于模型的疑问或意见,欢迎联系作者Breezedeus。