nougat-latex-base开源模型 - 免费将图像转为LaTeX代码，精准识别数学公式

首页

Nougat Latex Base

由 Norm 开发

该模型是基于Nougat-base微调的LaTeX OCR模型，专门用于从图像生成LaTeX代码，特别优化了数学公式图像的识别能力。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #LaTeX公式识别 #数学公式OCR #高精度公式转换

下载量 8,523

发布时间 : 10/8/2023

模型简介

基于Nougat的LaTeX模型通过调整输入分辨率和采用自适应填充方法，提升了从图像生成LaTeX代码的质量，特别适用于数学公式图像的识别。

模型特点

优化的输入分辨率

调整了输入分辨率并采用自适应填充方法，减少缩放伪影，提升LaTeX代码生成质量。

高性能LaTeX生成

在标记准确率和归一化编辑距离上优于同类模型pix2tex。

数学公式专用优化

专门针对数学公式图像片段进行优化，适合学术和技术文档处理。

模型能力

图像到LaTeX代码转换

数学公式识别

学术文档处理

使用案例

学术研究

论文公式提取

从学术论文图像中提取数学公式的LaTeX代码。

标记准确率62.38%，归一化编辑距离0.0618

教育

教学材料处理

将手写或印刷的数学公式转换为可编辑的LaTeX格式。

🚀 基于LaTeX的Nougat模型

基于LaTeX的Nougat模型是从 facebook/nougat-base 微调而来，使用 im2latex-100k 数据集进行训练，以提升其从图像生成LaTeX代码的能力。该模型解决了原Nougat模型在处理方程图像片段时，因输入图像尺寸不合适导致的缩放伪影问题，从而提高了LaTeX代码的生成质量。

🚀 快速开始

安装依赖

pip install transformers >= 4.34.0

运行步骤

下载仓库

git clone git@github.com:NormXU/nougat-latex-ocr.git
cd ./nougat-latex-ocr

进行推理

import torch
from PIL import Image
from transformers import VisionEncoderDecoderModel
from transformers.models.nougat import NougatTokenizerFast
from nougat_latex import NougatLaTexProcessor

model_name = "Norm/nougat-latex-base"
device = "cuda" if torch.cuda.is_available() else "cpu"
# 初始化模型
model = VisionEncoderDecoderModel.from_pretrained(model_name).to(device)

# 初始化处理器
tokenizer = NougatTokenizerFast.from_pretrained(model_name)

latex_processor = NougatLaTexProcessor.from_pretrained(model_name)

# 运行测试
image = Image.open("path/to/latex/image.png")
if not image.mode == "RGB":
    image = image.convert('RGB')

pixel_values = latex_processor(image, return_tensors="pt").pixel_values

decoder_input_ids = tokenizer(tokenizer.bos_token, add_special_tokens=False,
                              return_tensors="pt").input_ids
with torch.no_grad():
    outputs = model.generate(
        pixel_values.to(device),
        decoder_input_ids=decoder_input_ids.to(device),
        max_length=model.decoder.config.max_length,
        early_stopping=True,
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id,
        use_cache=True,
        num_beams=5,
        bad_words_ids=[[tokenizer.unk_token_id]],
        return_dict_in_generate=True,
    )
sequence = tokenizer.batch_decode(outputs.sequences)[0]
sequence = sequence.replace(tokenizer.eos_token, "").replace(tokenizer.pad_token, "").replace(tokenizer.bos_token, "")
print(sequence)