X

Xlm Roberta Capu

由 dragonSwing 开发
基于XLM-RoBERTa微调的越南语标点恢复模型,可预测纯小写文本的标点符号和大写形式
下载量 1,722
发布时间 : 5/11/2022
模型介绍
内容详情
替代品

模型简介

该模型用于恢复越南语文本中的标点符号和大写形式,适用于语音识别输出或其他丢失标点的文本处理场景。支持恢复常见标点符号(. , : ?)和复杂单词的大写形式。

模型特点

多标点恢复
支持恢复句号、逗号、冒号和问号四种常见标点符号
智能大写转换
能准确还原复杂专有名词的大写形式,如YouTube、MobiFone等
长文本处理
可处理任意长度的越南语文本,内置分块处理机制
高准确率
在测试集上达到0.89的F1值,专有名词识别准确率达0.93

模型能力

文本标点恢复
大小写转换
越南语文本处理
语音识别后处理

使用案例

语音识别后处理
ASR输出文本规范化
将语音识别系统输出的无标点小写文本转换为规范格式
提升ASR输出文本的可读性和专业性
文本预处理
社交媒体文本规范化
处理社交媒体中的非规范化越南语文本
使非正式文本符合正式写作规范