Sage-v1.1.0开源俄语拼写检查模型 - 免费纠正拼写、标点及大小写错误

首页

Sage V1.1.0

由 ai-forever 开发

基于FRED-T5-1.7B训练的俄语拼写检查模型，可纠正拼写、标点和大小写错误

文本生成

Transformers

其他开源协议:MIT #俄语拼写纠错 #标点修复 #多领域适应

下载量 668

发布时间 : 4/18/2024

模型简介

该模型通过将文本中的所有单词规范为俄语标准形式，纠正拼写、标点错误和打字错误。适用于俄语文本的自动校对和规范化处理。

模型特点

多维度纠错

同时处理拼写、标点和大小写错误，实现全面文本规范化

高性能

在RUSpellRU数据集上达到88.2的拼写F1值，优于GPT系列模型

领域适应性强

在医疗、技术等多个专业领域表现良好

模型能力

俄语拼写纠错

标点符号修正

大小写规范化

打字错误纠正

使用案例

内容创作

博客文章校对

自动修正社交媒体和博客文章中的拼写和语法错误

在LiveJournal数据上达到88.2 F1值

专业文档处理

医疗文书校对

修正医疗病历中的专业术语拼写错误

在MedSpellChecker数据集上达到72.4 F1值

技术文档

代码注释纠错

修正GitHub代码提交中的拼写错误

在GitHubTypoCorpusRu数据集上达到62.7 F1值

🚀 sage-v1.1.0

sage-v1.1.0 模型可将文本中的所有单词规范为俄语标准形式，从而纠正拼写、标点错误和打字错误。该模型基于 FRED-T5-1.7B 模型训练而来，具有较高的准确性和实用性。

🚀 快速开始

本模型可有效纠正俄语文本中的拼写和标点错误，将文本中的所有单词规范为俄语标准形式。模型基于 FRED-T5-1.7B 进行训练，使用了包含“人工”错误的大型数据集，该数据集基于俄语维基百科和俄语视频转录本构建，并使用 SAGE 库自动引入了拼写错误和打字错误。

代码示例

import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")

model.to('cuda')

tokenizer_config = {
            'max_length': None,
            'padding': 'longest',
            'truncation': False,
            "return_tensors": "pt",
        }

def inference(sentence):
    text = "<LM>" + sentence
    with torch.inference_mode():
        encodings = tokenizer(text, **tokenizer_config)
        for k, v in encodings.items():
            encodings[k] = v.to('cuda:0')
        res = model.generate(
            **encodings,
            use_cache=True,
            max_length = encodings['input_ids'].size(1) * 1.5
        )
        res = res.cpu().tolist()
        res = tokenizer.batch_decode(res, skip_special_tokens=True)
    return res

text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))

# ['Привет, как дела?']

✨ 主要特性

拼写和标点纠错：能够准确识别并纠正俄语文本中的拼写和标点错误。
基于大型模型训练：以 FRED-T5-1.7B 为基础，保证了模型的性能和准确性。
使用广泛数据集：训练数据来自俄语维基百科和视频转录本，涵盖了丰富的语言场景。

💻 使用示例

基础用法

以下是使用模型进行文本纠错的基本示例：

import re
import torch
from transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-1.7B")
model = T5ForConditionalGeneration.from_pretrained("ai-forever/sage-v1.1.0")

model.to('cuda')

tokenizer_config = {
            'max_length': None,
            'padding': 'longest',
            'truncation': False,
            "return_tensors": "pt",
        }

def inference(sentence):
    text = "<LM>" + sentence
    with torch.inference_mode():
        encodings = tokenizer(text, **tokenizer_config)
        for k, v in encodings.items():
            encodings[k] = v.to('cuda:0')
        res = model.generate(
            **encodings,
            use_cache=True,
            max_length = encodings['input_ids'].size(1) * 1.5
        )
        res = res.cpu().tolist()
        res = tokenizer.batch_decode(res, skip_special_tokens=True)
    return res

text = 'Првет какдила'
text = re.sub(r'\n+', '\n', text)
print(inference(text))

# ['Привет, как дела?']

📚 详细文档

公开引用

示例

输入	输出
И не чсно прохожим в этот день непогожйи почему я веселый такйо	И не ясно прохожим в этот день непогожий, почему я веселый такой.
Каждй день воттак делой, и спена балеть нибудет. А вотак каждый день ниделай	Каждый день вот так делай и спина болеть не будет. А вот так каждый день не делай.
Основая цель мероприятия практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий сокращение временных показателей реагирования.	Основная цель мероприятия — практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования

指标

质量

以下是用于确定拼写检查器正确性的自动指标。我们在四个可用数据集上，将本解决方案与开源自动拼写检查器以及 ChatGPT 系列模型进行了比较：

RUSpellRU：从 LiveJournal 收集的文本，其中的拼写错误和打字错误已手动纠正。
MultidomainGold：来自 7 个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品。
MedSpellChecker：包含医疗病历中错误的文本。
GitHubTypoCorpusRu：来自 GitHub 提交记录中的拼写错误和打字错误。

RUSpellRU

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-v1.1.0	90.3	86.3	88.2	90.3	86.6	88.4	95.2	95.9	95.6
sage-fredt5-large	57.3	68.0	62.2	86.7	46.1	60.2	92.1	67.8	78.1
sage-fredt5-large (ft)	88.4	80.9	84.5	88.2	85.3	86.8	95.5	94.0	94.7
gpt-3.5-turbo	33.6	58.5	42.7	85.9	64.6	73.7	84.9	73.9	79.0
gpt-4	54.9	76.7	64.0	84.0	82.3	83.2	91.5	90.2	90.9

MultidomainGold

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-v1.1.0	81.6	77.7	79.6	70.2	67.5	68.8	80.5	80.5	80.5
sage-fredt5-large	43.4	49.7	46.3	21.8	21.3	21.6	58.8	23.9	34.0
sage-fredt5-large (ft)	80.3	75.1	77.6	69.0	66.5	67.7	78.6	80.0	79.3
gpt-3.5-turbo	18.8	48.1	27.1	42.0	31.8	36.2	47.1	51.3	49.1
gpt-4	25.4	68.0	37.0	57.8	54.3	56.0	54.0	67.5	60.0

MedSpellChecker

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-v1.1.0	71.3	73.5	72.4	75.1	69.2	72.0	80.9	72.8	76.6
sage-fredt5-large	35.2	54.5	42.8	19.2	13.2	15.7	48.7	36.8	41.9
sage-fredt5-large (ft)	72.5	72.2	72.3	74.6	66.4	70.3	79.3	85.1	82.1
gpt-3.5-turbo	14.7	45.9	22.3	69.9	52.3	59.8	26.4	41.8	32.3
gpt-4	37.8	72.3	49.6	81.4	64.3	71.9	73.0	62.1	67.1

GitHubTypoCorpusRu

模型	拼写准确率	拼写召回率	拼写 F1 值	标点准确率	标点召回率	标点 F1 值	大小写准确率	大小写召回率	大小写 F1 值
sage-v1.1.0	70.8	56.3	62.7	48.9	35.8	41.4	32.9	45.3	38.1
sage-fredt5-large	46.0	46.6	46.3	22.7	18.3	20.2	12.0	13.2	12.6
sage-fredt5-large (ft)	67.5	53.2	59.5	48.5	38.0	42.6	37.3	50.0	42.7
gpt-3.5-turbo	23.7	38.7	29.4	37.6	23.3	28.7	19.6	35.9	25.3
gpt-4	27.0	52.8	35.7	45.9	32.6	38.2	25.7	36.8	30.2