RuM2M100-1.2B开源俄语拼写检查模型 - 免费纠正拼写及打字错误

首页

Rum2m100 1.2B

由 ai-forever 开发

基于M2M100-1.2B训练的俄语拼写检查模型，能纠正拼写错误和打字错误

机器翻译

Transformers

其他开源协议:MIT #俄语拼写纠正 #多领域适配 #高精度语法修复

下载量 407

发布时间 : 7/26/2023

模型简介

该模型通过将文本中的所有单词规范化为俄语标准形式来纠正拼写错误和打字错误，基于包含人工错误的广泛数据集训练

模型特点

高质量拼写纠正

在多个测试数据集上表现优于ChatGPT系列模型和开源拼写检查器

多领域适用

在普通文本、医学文本、技术文本等多种领域都有良好表现

基于合成错误训练

使用SAGE库自动生成训练数据中的错误，覆盖广泛的错误类型

模型能力

俄语拼写检查

打字错误纠正

文本规范化

使用案例

文本处理

社交媒体文本纠正

纠正社交媒体中的拼写错误和打字错误

在RUSpellRU数据集上F1分数50.1

医学文本处理

纠正医学病史中的专业术语拼写错误

在MedSpellChecker数据集上F1分数60.6

技术文档处理

纠正技术文档和代码注释中的拼写错误

在GitHubTypoCorpusRu数据集上F1分数43.5

🚀 RuM2M100-1.2B模型

RuM2M100-1.2B模型能够将文本中的所有单词规范为俄语标准形式，从而纠正拼写错误和打字错误。该模型基于M2M100-1.2B模型进行训练。

✨ 主要特性

该模型能够有效纠正俄语中的拼写错误和打字错误，将文本中的所有单词规范为俄语标准形式。
基于M2M100-1.2B模型进行训练，利用了大规模的“人工”错误数据集。
训练语料库基于俄语维基百科和俄语视频转录本构建，并使用SAGE库自动引入了拼写错误和打字错误。

📦 安装指南

文档未提及安装步骤，此部分跳过。

💻 使用示例

基础用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

path_to_model = "ai-forever/RuM2M100-1.2B"

model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")

sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"

encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
        **encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)

#["прийдя в МГТУ я был удивлен никого не обнаружив там..."]

📚 详细文档

模型概述

该拼写纠正器基于M2M100-1.2B模型进行训练。训练语料库采用了一个包含“人工”错误的广泛数据集，该数据集基于俄语维基百科和俄语视频的转录本构建，然后使用SAGE库自动引入了拼写错误和打字错误。

公共参考资料

示例

输入	输出
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но	Думаю что лет через 10 ретроспективно просматривать это будет мне невероятно интересно
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования.	Основная цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных происшествий, сокращение временных показателей реагирования.
прийдя в МГТУ я был удивлен никого необноружив там…	прийдя в МГТУ я был удивлен никого не обнаружив там...

指标

以下是用于确定拼写检查器正确性的自动指标。我们在所有四个可用数据集上，将我们的解决方案与开源自动拼写检查器和ChatGPT系列模型进行了比较：

RUSpellRU：从(LiveJournal)收集的文本，手动纠正了拼写错误和打字错误；
MultidomainGold：来自7个文本来源的示例，包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品；
MedSpellChecker：来自医学病历的错误文本；
GitHubTypoCorpusRu：来自GitHub提交中的拼写错误和打字错误。

RUSpellRU

模型	精确率	召回率	F1值
M2M100-1.2B	59.4	43.3	50.1
ChatGPT gpt-3.5-turbo-0301	55.8	75.3	64.1
ChatGPT gpt-4-0314	57.0	75.9	63.9
ChatGPT text-davinci-003	55.9	75.3	64.2
Yandex.Speller	83.0	59.8	69.5
JamSpell	42.1	32.8	36.9
HunSpell	31.3	34.9	33.0

MultidomainGold

模型	精确率	召回率	F1值
M2M100-1.2B	56.4	44.8	49.9
ChatGPT gpt-3.5-turbo-0301	33.8	72.1	46.0
ChatGPT gpt-4-0314	34.0	73.2	46.4
ChatGPT text-davinci-003	33.6	72.0	45.8
Yandex.Speller	52.9	51.4	52.2
JamSpell	25.7	30.6	28.0
HunSpell	16.2	40.1	23.0

MedSpellChecker

模型	精确率	召回率	F1值
M2M100-1.2B	63.7	57.8	60.6
ChatGPT gpt-3.5-turbo-0301	53.2	67.6	59.6
ChatGPT gpt-4-0314	54.2	69.4	60.9
ChatGPT text-davinci-003	47.8	68.4	56.3
Yandex.Speller	80.6	47.8	60.0
JamSpell	24.6	29.7	26.9
HunSpell	10.3	40.2	16.4

GitHubTypoCorpusRu

模型	精确率	召回率	F1值
M2M100-1.2B	45.7	41.4	43.5
ChatGPT gpt-3.5-turbo-0301	43.8	57.0	49.6
ChatGPT gpt-4-0314	45.2	58.2	51.0
ChatGPT text-davinci-003	46.5	58.1	51.7
Yandex.Speller	67.7	37.5	48.3
JamSpell	49.5	29.9	37.3
HunSpell	28.5	30.7	29.6