W

Wav2vec2 Large Xls R 300m Ur

由 anuragshas 开发
基于wav2vec2-large-xls-r-300m架构的乌尔都语语音识别模型,在common_voice数据集上微调
下载量 20
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是针对乌尔都语优化的自动语音识别(ASR)系统,基于Facebook的wav2vec2架构,在Common Voice数据集上进行了微调。

模型特点

大规模预训练
基于3亿参数的wav2vec2-large-xls-r架构,具有强大的语音特征提取能力
乌尔都语优化
专门针对乌尔都语进行微调,适应特定语言的语音特征
开源许可
采用Apache 2.0许可证,允许商业和研究使用

模型能力

乌尔都语语音转文本
连续语音识别
语音活动检测

使用案例

语音转录
乌尔都语媒体内容转录
将乌尔都语播客、视频等内容自动转录为文本
在评估集上达到0.7328的词错误率
辅助技术
语音控制应用
为乌尔都语用户开发语音控制界面