W

Wav2vec2 Large XLSR 53 Catalan

由 PereLluis13 开发
基于facebook/wav2vec2-large-xlsr-53模型微调的加泰罗尼亚语自动语音识别(ASR)模型,在Common Voice加泰罗尼亚语数据集上训练,词错误率(WER)为8.11%。
下载量 11.57k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个用于加泰罗尼亚语自动语音识别的模型,基于XLSR-53架构微调,支持16kHz采样率的语音输入。

模型特点

高性能识别
在Common Voice加泰罗尼亚语测试集上达到8.11%的词错误率
无需语言模型
可直接使用,无需额外集成语言模型
优化训练过程
通过调整批量大小和梯度步长优化训练,并对部分样本进行音高处理

模型能力

加泰罗尼亚语语音识别
16kHz音频处理

使用案例

语音转文字
加泰罗尼亚语转录
将加泰罗尼亚语语音转换为文字
8.11%词错误率