wav2vec2-xls-r-300m-indonesian开源模型 - 精准实现印度尼西亚语自动语音识别

Wav2vec2 Xls R 300m Indonesian

由 Wikidepia 开发

基于Facebook的XLS-R-300M模型在印度尼西亚语语音数据上微调的自动语音识别模型

下载量 4,486

发布时间 : 3/2/2022

模型简介

该模型是针对印度尼西亚语优化的自动语音识别(ASR)模型，基于Facebook的wav2vec2-xls-r-300m架构，在Common Voice 8.0和MagicHub印度尼西亚语会话语音语料库上微调。

高性能印度尼西亚语识别

在Common Voice 8测试集上达到5.046%的词错误率(WER)和1.699%的字错误率(CER)

多数据集训练

结合了Common Voice 8.0和MagicHub印度尼西亚语会话语音语料库进行训练

鲁棒性评估

在鲁棒语音赛事数据集上进行了性能评估，展示了在不同条件下的识别能力

印度尼西亚语语音识别

语音转文本

自动语音转录

语音转录

语音助手

用于印度尼西亚语语音助人的语音识别组件

会议记录

自动转录印度尼西亚语会议内容

无障碍技术

实时字幕生成

为印度尼西亚语视频内容生成实时字幕

属性	详情
模型类型	自动语音识别模型
训练数据	`mozilla - foundation/common_voice_8_0`和MagicHub印尼语对话语音语料库

任务	数据集	指标	值
自动语音识别	Common Voice 8	测试词错误率（Test WER）	5.046
自动语音识别	Common Voice 8	测试字符错误率（Test CER）	1.699
自动语音识别	Robust Speech Event - Dev Data	测试词错误率（Test WER）	41.31
自动语音识别	Robust Speech Event - Test Data	测试词错误率（Test WER）	52.23