语言:
- 俄语
标签:
- 拼写检查
- M2M100
- pytorch
- 自然语言生成
许可证: mit
数据集:
- ai-forever/spellcheck_benchmark
评估指标:
- 精确率
- 召回率
- F1值
库名称: transformers
模型索引:
- 名称: sage-mt5-large
结果:
- 任务:
类型: 文本生成
数据集:
类型: spellcheck_benchmark
名称: RUSpellRU
指标:
- 名称: 精确率
类型: precision
值: 88.8
已验证: false
- 名称: 召回率
类型: recall
值: 71.5
已验证: false
- 名称: F1值
类型: f1
值: 79.2
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: spellcheck_benchmark
名称: MultidomainGold
指标:
- 名称: 精确率
类型: precision
值: 63.8
已验证: false
- 名称: 召回率
类型: recall
值: 61.1
已验证: false
- 名称: F1值
类型: f1
值: 62.4
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: spellcheck_benchmark
名称: MedSpellchecker
指标:
- 名称: 精确率
类型: precision
值: 78.8
已验证: false
- 名称: 召回率
类型: recall
值: 71.4
已验证: false
- 名称: F1值
类型: f1
值: 74.9
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: spellcheck_benchmark
名称: GitHubTypoCorpusRu
指标:
- 名称: 精确率
类型: precision
值: 47.1
已验证: false
- 名称: 召回率
类型: recall
值: 42.9
已验证: false
- 名称: F1值
类型: f1
值: 44.9
已验证: false
sage-m2m100-1.2B 模型

概述
该模型通过将文本中的所有单词规范为俄语标准来纠正拼写错误和打字错误。
纠错器基于 M2M100-1.2B 模型训练而成。
训练语料库采用了包含“人工”错误的广泛数据集:该数据集基于俄语维基百科和俄语视频转录构建,然后使用 SAGE 库自动引入打字错误和拼写错误。
该模型是 预训练模型 的微调版本。
公开参考
示例
输入 |
输出 |
Думю ешцъа лет череа 10 ретроспективно просматривотьэ то будкетцц мне невероя тна ин те р но |
我想再过10年回顾性地看这会让我觉得非常有趣 |
Основая цель мероприятия - практическая отработка навыков по оказанию помощи гражданам, попавшим в ДТП, а также повышение и совершенствование уровня профессиональной подготовки сотрудников МЧС при проведении аварийно-спасательных работ по ликвидации последствий дорожно-транспортных проишествий, сокращение временных показателей реагирования. |
活动的主要目标是实际演练为遭遇交通事故的公民提供援助的技能,同时提高和完善紧急情况部员工在开展消除道路交通事故后果的救援工作中的专业培训水平,缩短响应时间指标。 |
прийдя в МГТУ я был удивлен никого необноружив там… |
来到莫斯科国立技术大学时,我很惊讶没有发现任何人... |
|
|
评估指标
质量
以下是用于确定拼写检查器正确性的自动评估指标。
我们将我们的解决方案与开源自动拼写检查器以及ChatGPT系列模型在所有四个可用数据集上进行比较:
- RUSpellRU:从LiveJournal收集的文本,带有手动纠正的打字错误和拼写错误;
- MultidomainGold:来自7个文本源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品;
- MedSpellChecker:来自医疗病史的错误文本;
- GitHubTypoCorpusRu:GitHub提交中的拼写错误和打字错误;
RUSpellRU
模型 |
精确率 |
召回率 |
F1值 |
sage-m2m100-1.2B |
88.8 |
71.5 |
79.2 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
Yandex.Speller |
83.0 |
59.8 |
69.5 |
JamSpell |
42.1 |
32.8 |
36.9 |
HunSpell |
31.3 |
34.9 |
33.0 |
MultidomainGold
模型 |
精确率 |
召回率 |
F1值 |
sage-m2m100-1.2B |
63.8 |
61.1 |
62.4 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
Yandex.Speller |
52.9 |
51.4 |
52.2 |
JamSpell |
25.7 |
30.6 |
28.0 |
HunSpell |
16.2 |
40.1 |
23.0 |
MedSpellChecker
模型 |
精确率 |
召回率 |
F1值 |
sage-m2m100-1.2B |
78.8 |
71.4 |
74.9 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
Yandex.Speller |
80.6 |
47.8 |
60.0 |
JamSpell |
24.6 |
29.7 |
26.9 |
HunSpell |
10.3 |
40.2 |
16.4 |
GitHubTypoCorpusRu
模型 |
精确率 |
召回率 |
F1值 |
sage-m2m100-1.2B |
47.1 |
42.9 |
44.9 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
Yandex.Speller |
67.7 |
37.5 |
48.3 |
JamSpell |
49.5 |
29.9 |
37.3 |
HunSpell |
28.5 |
30.7 |
29.6 |
使用方法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
path_to_model = "ai-forever/sage-m2m100-1.2B"
model = M2M100ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = M2M100Tokenizer.from_pretrained(path_to_model, src_lang="ru", tgt_lang="ru")
sentence = "прийдя в МГТУ я был удивлен никого необноружив там…"
encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(
**encodings, forced_bos_token_id=tokenizer.get_lang_id("ru"))
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)
资源
许可证
我们的解决方案基于的 M2M100-1.2B 模型及其源代码遵循MIT开源许可证。
我们的解决方案同样采用MIT许可证。
规格
- 文件大小: 5 GB;
- 框架: pytorch
- 格式: AI服务
- 版本: v2.0
- 开发者: SberDevices, AGI NLP
联系方式
nikita.martynov.98@list.ru