W

Wav2vec2 Large Xlsr 53 Japanese

由 jonatasgrosman 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
下载量 2.9M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个针对日语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1、CSS10和JSUT数据集训练,适用于日语语音转文本任务。

模型特点

多数据集训练
结合了Common Voice 6.1、CSS10和JSUT三个日语数据集进行训练,提高模型泛化能力
无需语言模型
可直接使用进行语音识别,无需额外语言模型支持
16kHz采样率支持
专为16kHz采样率的语音输入优化

模型能力

日语语音识别
音频转文本
自动语音转录

使用案例

语音转录
日语语音转文字
将日语语音内容转换为文本格式
CER 20.16%, WER 81.80%(在Common Voice日语测试集上)
语音助手
日语语音指令识别
用于日语语音助手或控制系统的语音指令识别