azbert-base开源预训练模型 - 免费部署助力数学符号识别处理

首页

Azbert Base

由 castorini 开发

一个预训练的BERT模型，专门用于识别和处理数学符号，使用特殊的分词方法处理LaTeX标记。

大型语言模型

Transformers

英语开源协议:MIT #数学符号识别 #LaTeX分词 #数学表达式填充

下载量 16

发布时间 : 3/2/2022

模型简介

该模型能够识别数学符号，使用[pya0]进行分词，为LaTeX标记添加有限的新词元。适用于数学表达式理解和生成任务。

模型特点

数学符号识别

专门针对数学符号进行优化，能够有效识别和处理LaTeX格式的数学表达式。

特殊分词方法

使用[pya0]进行分词，为LaTeX标记添加有限的新词元，总词汇量仅为31,061。

高效训练

在4块Tesla V100 GPU上训练，总批次大小为64，使用270万句对数据训练7个周期。

模型能力

数学表达式理解

数学表达式生成

填充掩码预测

使用案例

数学教育

数学表达式补全

自动补全不完整的数学表达式，如填充缺失的运算符或变量。

能够准确预测数学表达式中的缺失部分。

数学证明辅助

辅助生成数学证明的步骤或提供证明思路。

能够生成合理的证明步骤，帮助理解数学定理。

学术研究

数学论文辅助写作

帮助研究人员快速生成或补全数学论文中的公式和表达式。

提高论文写作效率，减少公式输入错误。

🚀 预训练数学感知BERT模型（azbert）

本项目分享了一个能够感知数学标记的预训练BERT模型。该模型对数学标记进行特殊处理，并使用 pya0 进行分词，仅为LaTeX标记添加了非常有限的新标记（总词汇量仅为31,061）。

🚀 快速开始

下载并试用模型

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1
python test.py --test_file test.txt

测试文件格式

修改 test.txt 中的测试示例即可进行测试。

测试文件采用制表符分隔，第一列是你希望对右侧句子进行掩码的额外位置（这在对数学标记中的标记进行掩码时非常有用）。若为零，则表示没有额外的掩码位置。

示例输出

上传到Hugging Face

本仓库托管在 Github，仅在 Hugging Face 上进行镜像。

若要上传到Hugging Face，请使用 upload2hgf.sh 脚本。在运行此脚本之前，请务必检查以下内容：

模型和分词器的检查点已在 ./ckpt 文件夹下创建。
模型包含所有必需的文件：config.json 和 pytorch_model.bin。
分词器包含所有必需的文件：added_tokens.json、special_tokens_map.json、tokenizer_config.json、vocab.txt 和 tokenizer.json。
tokenizer_config.json 中没有 tokenizer_file 字段（有时它会本地存储在 ~/.cache 中）。
已安装 git-lfs。
存在一个名为 hgf 的git远程引用，指向 https://huggingface.co/castorini/azbert-base。

✨ 主要特性

数学感知：能够特殊处理数学标记，使用 pya0 进行分词。
轻量级词汇：仅为LaTeX标记添加了非常有限的新标记，总词汇量仅为31,061。

📦 安装指南

pip install pya0==0.3.2
wget https://vault.cs.uwaterloo.ca/s/gqstFZmWHCLGXe3/download -O ckpt.tar.gz
mkdir -p ckpt
tar xzf ckpt.tar.gz -C ckpt --strip-components=1