M

Macbert4csc Base Chinese

由 shibing624 开发
基于MacBERT的中文拼写纠错模型,在SIGHAN2015测试集上达到当前最优水平
下载量 9,623
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型专注于中文文本的拼写错误检测与纠正,采用改进的MacBERT架构,适用于各类中文文本校对场景

模型特点

最优性能
在SIGHAN2015测试集上达到字符级别F1值89.91,句子级别F1值77.89的当前最优水平
改进架构
基于softmaskedbert改进的MacBERT架构,通过MLM校正预训练任务优化模型性能
全面训练数据
使用SIGHAN+Wang271K中文纠错数据集训练,包含27万条高质量纠错样本

模型能力

中文拼写错误检测
中文文本自动纠正
错别字识别与修正

使用案例

文本校对
日常文本纠错
自动纠正聊天、邮件等日常文本中的拼写错误
示例:'今天新情很好' → '今天心情很好'
正式文档校对
辅助检查报告、论文等正式文档的文字准确性
教育辅助
中文学习辅助
帮助中文学习者识别和纠正写作中的错误