sage-mt5-large开源拼写检查模型 - 免费纠正俄语和英语拼写、打字错误

首页

Sage Mt5 Large

由 ai-forever 开发

基于mT5-large架构的俄语和英语拼写检查模型，通过规范化单词纠正拼写错误和打字错误。

大型语言模型

Transformers

支持多种语言开源协议:MIT #俄英拼写纠错 #多领域适应 #高召回率

下载量 51

发布时间 : 3/11/2024

模型简介

该模型用于纠正俄语和英语中的拼写错误和打字错误，将文本中的所有单词规范化为语言标准。基于mT5-large架构训练，训练语料库包含人工引入错误的广泛数据集。

模型特点

多语言支持

支持俄语和英语的拼写检查和文本规范化。

基于mT5-large架构

利用强大的mT5-large架构进行文本生成任务。

合成错误训练

训练数据包含人工引入的拼写错误和打字错误，提高模型鲁棒性。

广泛数据集评估

在多个俄语和英语拼写检查基准数据集上进行了全面评估。

模型能力

俄语拼写检查

英语拼写检查

文本规范化

打字错误纠正

使用案例

文本处理

社交媒体文本纠正

自动纠正社交媒体帖子中的拼写错误和打字错误。

在RUSpellRU数据集上达到61.4的F1值

医疗文本规范化

纠正医疗病史中的专业术语拼写错误。

在MedSpellchecker数据集上达到47.0的F1值

代码注释纠错

纠正GitHub代码提交中的拼写错误。

在GitHubTypoCorpusRu数据集上达到50.4的F1值

多领域应用

多领域文本纠正

处理来自新闻、社交媒体、文学作品等多个领域的文本错误。

在MultidomainGold数据集上达到43.9的F1值

🚀 sage-mt5-large

sage-mt5-large模型能够对俄语和英语文本进行拼写错误和打字错误的纠正，将文本中的所有单词规范为正确的语言表达形式，为多语言文本处理提供了有效的解决方案。

🚀 快速开始

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')

sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# ["Переведи мне текст на английском: \"Screw you guys, I am going home\" (c)."]

✨ 主要特性

该模型能够纠正俄语和英语中的拼写错误和打字错误，将文本中的所有单词规范为语言标准形式。
基于 mT5-large 架构进行训练。
使用了包含“人为”错误的广泛数据集作为训练语料库，该语料库基于俄语维基百科和俄语视频的文字记录构建，并使用 SAGE 库自动引入拼写错误和打字错误。

📚 详细文档

公开引用

示例

输入	输出
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c).	Переведи мне текст на английском: "Screw you guys, I am going home" (c).
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И мне ясно прохожим в этот день непогожий, почему я веселый такой
If you bought something goregous, you well be very happy.	If you bought something gorgeous, you will be very happy.

指标

质量

以下是用于确定拼写检查器正确性的自动指标。我们在所有六个可用数据集上，将我们的解决方案与开放的自动拼写检查器和ChatGPT系列模型进行了比较：

RUSpellRU：从 (LiveJournal) 收集的文本，其中的拼写错误和打字错误已手动纠正。
MultidomainGold：来自7个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
MedSpellChecker：来自医学病历的错误文本。
GitHubTypoCorpusRu：来自 GitHub 提交中的拼写错误和打字错误。
BEA60K：从多个领域收集的英语拼写错误。
JFLEG：1601个英语句子，其中包含约2000个拼写错误。

RUSpellRU、MultidomainGold、MedSpellChecker和GitHubTypoCorpusRu是用于俄语拼写检查的数据集，而BEA60K和JFLEG是用于英语的数据集。

RUSpellRU

模型	精确率	召回率	F1值
sage-mt5-large	55.7	68.5	61.4
sage-mt5-large (ft.)	88.4	71.6	79.1
sage-ai-service	93.5	82.4	87.6
gpt-3.5-turbo	39.6	62.3	48.5
gpt-4	69.5	81.0	74.8

MultidomainGold

模型	精确率	召回率	F1值
sage-mt5-large	35.4	57.9	43.9
sage-mt5-large (ft.)	65.3	62.7	63.9
sage-ai-service	70.9	68.8	69.9
gpt-3.5-turbo	17.8	56.1	27.0
gpt-4	31.1	78.1	44.5

MedSpellChecker

模型	精确率	召回率	F1值
sage-mt5-large	35.1	70.8	47.0
sage-mt5-large (ft.)	77.7	77.5	77.6
sage-ai-service	73.4	76.2	74.9
gpt-3.5-turbo	15.1	53.6	23.5
gpt-4	48.9	88.7	63.1

GitHubTypoCorpusRu

模型	精确率	召回率	F1值
sage-mt5-large	47.4	53.8	50.4
sage-mt5-large (ft.)	69.5	46.0	55.3
sage-ai-service	76.1	51.2	61.2
gpt-3.5-turbo	23.7	43.9	30.8
gpt-4	34.7	60.5	44.1

BEA60K

模型	精确率	召回率	F1值
sage-mt5-large	64.7	83.8	73.0
gpt-3.5-turbo	66.9	84.1	74.5
gpt-4	68.6	85.2	76.0
Bert (https://github.com/neuspell/neuspell)	65.8	79.6	72.0
SC-LSTM (https://github.com/neuspell/neuspell)	62.2	80.3	72.0

JFLEG

模型	精确率	召回率	F1值
sage-mt5-large	74.9	88.4	81.1
gpt-3.5-turbo	77.8	88.6	82.9
gpt-4	77.9	88.3	82.8
Bert (https://github.com/neuspell/neuspell)	78.5	85.4	81.8
SC-LSTM (https://github.com/neuspell/neuspell)	80.6	86.1	83.2