语言:
标签:
许可证: MIT
指标:
库名称: transformers
模型索引:
- 名称: sage-mt5-large
结果:
- 任务:
类型: 文本生成
数据集:
类型: 拼写检查基准
名称: RUSpellRU
指标:
- 名称: 精确率
类型: precision
值: 55.7
已验证: false
- 名称: 召回率
类型: recall
值: 68.5
已验证: false
- 名称: F1值
类型: f1
值: 61.4
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: 拼写检查基准
名称: MultidomainGold
指标:
- 名称: 精确率
类型: precision
值: 35.4
已验证: false
- 名称: 召回率
类型: recall
值: 57.9
已验证: false
- 名称: F1值
类型: f1
值: 43.9
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: 拼写检查基准
名称: MedSpellchecker
指标:
- 名称: 精确率
类型: precision
值: 35.1
已验证: false
- 名称: 召回率
类型: recall
值: 70.8
已验证: false
- 名称: F1值
类型: f1
值: 47.0
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: 拼写检查基准
名称: GitHubTypoCorpusRu
指标:
- 名称: 精确率
类型: precision
值: 47.4
已验证: false
- 名称: 召回率
类型: recall
值: 53.8
已验证: false
- 名称: F1值
类型: f1
值: 50.4
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: JFLEG
名称: JFLEG
指标:
- 名称: 精确率
类型: precision
值: 74.9
已验证: false
- 名称: 召回率
类型: recall
值: 88.4
已验证: false
- 名称: F1值
类型: f1
值: 81.1
已验证: false
- 任务:
类型: 文本生成
数据集:
类型: bea60k
名称: BEA60K
指标:
- 名称: 精确率
类型: precision
值: 64.7
已验证: false
- 名称: 召回率
类型: recall
值: 83.8
已验证: false
- 名称: F1值
类型: f1
值: 73.0
已验证: false
sage-mt5-large

概述
该模型通过将文本中的所有单词规范化为语言标准,纠正俄语和英语中的拼写错误和打字错误。该纠正器基于mT5-large架构训练。训练语料库采用了包含“人工”错误的广泛数据集:该数据集基于俄语维基百科和俄语视频转录构建,然后使用SAGE库自动引入打字错误和拼写错误。
公开参考
示例
输入 |
输出 |
Перведи мне текст на аглиском: "Screw you kuys, I am goin hme (c). |
Переведи мне текст на английском: "Screw you guys, I am going home" (c). |
И не чсно прохожим в этот день непогожйи почему я веселый такйо |
И мне ясно прохожим в этот день непогожий, почему я веселый такой |
If you bought something goregous, you well be very happy. |
If you bought something gorgeous, you will be very happy. |
|
|
指标
质量
以下是用于确定拼写检查器正确性的自动指标。我们将我们的解决方案与开源自动拼写检查器以及ChatGPT系列模型在所有六个可用数据集上进行比较:
- RUSpellRU: 从LiveJournal收集的文本,手动纠正了打字错误和错误;
- MultidomainGold: 来自7个文本源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品;
- MedSpellChecker: 来自医疗病史的错误文本;
- GitHubTypoCorpusRu: GitHub提交中的拼写错误和打字错误;
- BEA60K: 从多个领域收集的英语拼写错误;
- JFLEG: 1601个英语句子,包含约2000个拼写错误;
RUSpellRU、MultidomainGold、MedSpellChecker、GitHubTypoCorpusRu是俄语拼写检查的数据集,BEA60K和JFLEG是英语的数据集。
RUSpellRU
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
55.7 |
68.5 |
61.4 |
sage-mt5-large (微调) |
88.4 |
71.6 |
79.1 |
sage-ai-service |
93.5 |
82.4 |
87.6 |
gpt-3.5-turbo |
39.6 |
62.3 |
48.5 |
gpt-4 |
69.5 |
81.0 |
74.8 |
MultidomainGold
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
35.4 |
57.9 |
43.9 |
sage-mt5-large (微调) |
65.3 |
62.7 |
63.9 |
sage-ai-service |
70.9 |
68.8 |
69.9 |
gpt-3.5-turbo |
17.8 |
56.1 |
27.0 |
gpt-4 |
31.1 |
78.1 |
44.5 |
MedSpellChecker
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
35.1 |
70.8 |
47.0 |
sage-mt5-large (微调) |
77.7 |
77.5 |
77.6 |
sage-ai-service |
73.4 |
76.2 |
74.9 |
gpt-3.5-turbo |
15.1 |
53.6 |
23.5 |
gpt-4 |
48.9 |
88.7 |
63.1 |
GitHubTypoCorpusRu
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
47.4 |
53.8 |
50.4 |
sage-mt5-large (微调) |
69.5 |
46.0 |
55.3 |
sage-ai-service |
76.1 |
51.2 |
61.2 |
gpt-3.5-turbo |
23.7 |
43.9 |
30.8 |
gpt-4 |
34.7 |
60.5 |
44.1 |
BEA60K
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
64.7 |
83.8 |
73.0 |
gpt-3.5-turbo |
66.9 |
84.1 |
74.5 |
gpt-4 |
68.6 |
85.2 |
76.0 |
Bert (https://github.com/neuspell/neuspell) |
65.8 |
79.6 |
72.0 |
SC-LSTM (https://github.com/neuspell/neuspell) |
62.2 |
80.3 |
72.0 |
JFLEG
模型 |
精确率 |
召回率 |
F1值 |
sage-mt5-large |
74.9 |
88.4 |
81.1 |
gpt-3.5-turbo |
77.8 |
88.6 |
82.9 |
gpt-4 |
77.9 |
88.3 |
82.8 |
Bert (https://github.com/neuspell/neuspell) |
78.5 |
85.4 |
81.8 |
SC-LSTM (https://github.com/neuspell/neuspell) |
80.6 |
86.1 |
83.2 |
使用方法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("ai-forever/sage-mt5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/sage-mt5-large", device_map='cuda')
sentence = "Перведи мне текст на аглиском: \"Screw you kuys, I am goin hme (c)."
inputs = tokenizer(sentence, max_length=None, padding="longest", truncation=False, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_length = inputs["input_ids"].size(1) * 1.5)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
限制
资源
许可证
我们的解决方案基于的模型mT5-large及其源代码在Apache-2.0许可证下提供。我们的解决方案附带MIT许可证。
规格
- 文件大小: 5 GB;
- 框架: PyTorch
- 版本: v1.0
- 开发者: SberDevices, AGI NLP
联系方式
nikita.martynov.98@list.ru