P

Punct Cap Seg 47 Language

由 1-800-BAD-CODE 开发
支持47种语言的标点恢复、大小写校正和句子边界检测的多语言文本处理模型
下载量 4,728
发布时间 : 2/22/2023
模型介绍
内容详情
替代品

模型简介

该模型能够处理47种语言的小写无标点文本,自动添加标点符号、校正大小写(首字母大写)并进行句子分段。所有语言使用统一算法处理,无需指定语言标签。

模型特点

多语言统一处理
采用相同算法处理47种语言,无需语言标签或特定语言分支
三合一功能
同时完成标点恢复、大小写校正和句子边界检测三项任务
特殊字符支持
支持处理中文全角标点、阿姆哈拉语等特殊字符集

模型能力

文本标点恢复
首字母大写校正
句子边界检测
多语言文本处理

使用案例

语音转文字后处理
ASR输出格式化
将语音识别系统输出的无标点小写文本转换为规范格式
提升文本可读性,符合出版标准
文本规范化
社交媒体文本处理
处理非正式网络文本为规范格式
便于后续NLP任务处理