W

Wav2vec2 Large Ru Golos

由 bond005 开发
基于facebook/wav2vec2-large-xlsr-53微调的俄语语音识别模型,使用Sberdevices Golos数据集训练,支持16kHz音频输入
下载量 1,182
发布时间 : 6/21/2022
模型介绍
内容详情
替代品

模型简介

该模型是针对俄语优化的自动语音识别(ASR)模型,通过音高变换、速度调整和混响等增强技术提升识别效果,适用于多种俄语语音场景

模型特点

俄语优化
专门针对俄语语音特点进行微调,在多个俄语测试集上表现优异
音频增强
训练时应用了音高变换、速度调整和混响等增强技术,提升模型鲁棒性
多场景适配
在近距离(crowd)和远场(farfield)语音场景下均有良好表现

模型能力

俄语语音转文本
16kHz音频处理
远场语音识别

使用案例

语音转写
俄语语音转录
将俄语语音内容转换为文本
在Golos crowd测试集上WER 10.144%
智能助手
俄语语音指令识别
用于俄语智能家居设备的语音指令识别
在远场场景下WER 20.353%