W

Wav2vec2 Xls R 300m Timit Phoneme

由 vitouphy 开发
这是一个基于facebook/wav2vec2-xls-r-300m模型在TIMIT数据集上微调的自动音素识别模型,主要用于英语语音的音素级别识别。
下载量 8,457
发布时间 : 5/8/2022
模型介绍
内容详情
替代品

模型简介

该模型专门用于英语语音的音素识别任务,在TIMIT数据集上训练,能够将语音信号转换为对应的音素序列。

模型特点

高精度音素识别
在TIMIT测试集上达到7.996%的字符错误率(CER)
基于大规模预训练模型
基于facebook/wav2vec2-xls-r-300m模型微调,继承了其强大的语音特征提取能力
端到端处理能力
可以直接处理原始音频输入,无需复杂的预处理步骤

模型能力

英语音素识别
语音信号处理
端到端语音识别

使用案例

语音学研究
音素分析
用于语音学研究中分析发音特征和音素分布
语音识别系统开发
语音识别前端
作为语音识别系统的音素识别组件