W

Wav2vec2 Large Xlsr 53 Japanese

由 Ivydata 开发
基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型,支持16kHz采样率音频输入
下载量 19
发布时间 : 5/11/2023
模型介绍
内容详情
替代品

模型简介

该模型是在XLSR-53大模型基础上,使用Common Voice、JVS和JSUT日语数据集微调而成的语音识别模型,专门用于日语语音转文本任务。

模型特点

多数据集微调
使用Common Voice、JVS和JSUT三个日语数据集进行微调,提高了模型对日语语音的识别能力
无需语言模型
可直接使用,无需额外语言模型支持
高性能
在TEDxJP-10K数据集上CER为27.87%,优于同类日语语音识别模型

模型能力

日语语音识别
16kHz音频处理
实时语音转文本

使用案例

语音转录
日语会议记录
将日语会议录音自动转换为文字记录
准确率约72.13%(基于CER指标)
日语字幕生成
为日语视频内容自动生成字幕
语音助手
日语语音指令识别
用于日语语音助手或智能家居设备的语音指令识别