W

Wav2vec2 Large Xlsr Kyrgyz

由 aismlv 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的吉尔吉斯语语音识别模型,在Common Voice数据集上训练,词错误率34.08%。
下载量 571
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个专门用于吉尔吉斯语语音识别的模型,基于Wav2Vec2-XLSR架构,适用于将吉尔吉斯语音频转换为文本。

模型特点

高精度吉尔吉斯语识别
专门针对吉尔吉斯语优化的语音识别模型,在Common Voice测试集上达到34.08%的词错误率
基于XLSR架构
利用大规模跨语言表示学习预训练模型,具有强大的语音特征提取能力
16kHz采样率支持
专为16kHz采样率的语音输入优化,使用时需确保音频采样率匹配

模型能力

吉尔吉斯语语音识别
音频转文本
自动语音转录

使用案例

语音转写
吉尔吉斯语语音转录
将吉尔吉斯语的语音内容转换为可编辑的文本格式
词错误率34.08%
语音助手
吉尔吉斯语语音指令识别
为吉尔吉斯语语音助手提供语音识别能力