S

Sage Mt5 Large

由 ai-forever 开发
基于mT5-large架构的俄语和英语拼写检查模型,通过规范化单词纠正拼写错误和打字错误。
下载量 51
发布时间 : 3/11/2024
模型介绍
内容详情
替代品

模型简介

该模型用于纠正俄语和英语中的拼写错误和打字错误,将文本中的所有单词规范化为语言标准。基于mT5-large架构训练,训练语料库包含人工引入错误的广泛数据集。

模型特点

多语言支持
支持俄语和英语的拼写检查和文本规范化。
基于mT5-large架构
利用强大的mT5-large架构进行文本生成任务。
合成错误训练
训练数据包含人工引入的拼写错误和打字错误,提高模型鲁棒性。
广泛数据集评估
在多个俄语和英语拼写检查基准数据集上进行了全面评估。

模型能力

俄语拼写检查
英语拼写检查
文本规范化
打字错误纠正

使用案例

文本处理
社交媒体文本纠正
自动纠正社交媒体帖子中的拼写错误和打字错误。
在RUSpellRU数据集上达到61.4的F1值
医疗文本规范化
纠正医疗病史中的专业术语拼写错误。
在MedSpellchecker数据集上达到47.0的F1值
代码注释纠错
纠正GitHub代码提交中的拼写错误。
在GitHubTypoCorpusRu数据集上达到50.4的F1值
多领域应用
多领域文本纠正
处理来自新闻、社交媒体、文学作品等多个领域的文本错误。
在MultidomainGold数据集上达到43.9的F1值