W

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

由 jonatasgrosman 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
下载量 3.8M
发布时间 : 3/2/2022

模型简介

该模型是针对中文语音识别任务微调的XLSR-53大模型,适用于将中文语音转换为文本。

模型特点

多数据集微调
使用Common Voice 6.1、CSS10和ST-CMDS等多个中文语音数据集进行微调
无需语言模型
可直接使用,无需额外语言模型支持
16kHz采样率支持
专为16kHz采样率的语音输入优化

模型能力

中文语音识别
语音转文本

使用案例

语音转录
语音转写
将中文语音转换为文本
在通用语音zh-CN测试集上CER为19.03%
语音助手
语音指令识别
识别中文语音指令
AIbase
智启未来,您的人工智能解决方案智库
简体中文