W

W2v Hf Jsut Xlsr53

由 qqpann 开发
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice和JSUT数据集对日语进行了微调的自动语音识别模型。
下载量 16
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个针对日语优化的自动语音识别模型,能够将日语语音转换为文本。

模型特点

日语优化
专门针对日语语音进行了微调,提高了日语语音识别的准确性。
多数据集训练
使用Common Voice和JSUT两个日语数据集进行训练,增强了模型的泛化能力。
16kHz采样率支持
支持16kHz采样率的语音输入,适合大多数语音识别场景。

模型能力

日语语音识别
语音转文本

使用案例

语音转写
日语语音转写
将日语语音内容转换为文本
测试WER 51.72%,测试CER 24.89%
语音助手
日语语音指令识别
识别日语语音指令