W

Wav2vec2 Large Xlsr Gu

由 gchhablani 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的古吉拉特语自动语音识别模型,在OpenSLR数据集上达到23.55%的WER
下载量 3,582
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个用于古吉拉特语自动语音识别(ASR)的模型,基于XLSR Wav2Vec2架构微调,支持16kHz采样率的语音输入。

模型特点

高精度语音识别
在OpenSLR古吉拉特语测试集上达到23.55%的词错误率(WER)
无需语言模型
可直接使用,不需要额外的语言模型支持
多采样率支持
内置重采样功能,可处理不同采样率的音频输入

模型能力

古吉拉特语语音识别
音频转文本
语音内容分析

使用案例

语音转录
古吉拉特语语音转录
将古吉拉特语语音内容转换为文本
准确率达到76.45% (WER 23.55%)
语音助手
古吉拉特语语音指令识别
用于开发古吉拉特语语音助手和控制系统