W

Wav2vec2 Base Repro Timit

由 patrickvonplaten 开发
该模型是基于patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA数据集上微调的自动语音识别模型。
下载量 20
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个用于英语语音识别的模型,基于wav2vec2架构,在TIMIT_ASR数据集上微调,可用于将英语语音转换为文本。

模型特点

基于wav2vec2架构
采用Facebook AI的wav2vec2架构,具有良好的语音识别性能
TIMIT ASR数据集微调
在TIMIT ASR数据集上进行微调,针对英语语音识别进行了优化
逐步改进的性能
从训练结果可见,模型在20轮训练中逐步提高了识别准确率

模型能力

英语语音识别
音频转文本

使用案例

语音转录
英语语音转文字
将英语语音内容转换为文本格式
词错误率(WER)0.5484
语音辅助技术
语音命令识别
识别简单的语音命令