W

Wav2vec2 Ljspeech Gruut

由 bookbot 开发
基于Wav2Vec2架构的音素识别模型,在LJSpeech Phonemes数据集上微调,用于将语音转换为音素序列
下载量 2,484
发布时间 : 1/9/2023
模型介绍
内容详情
替代品

模型简介

该模型是一个自动语音识别(ASR)系统,专门用于将英语语音转换为国际音标(IPA)音素序列。与传统的单词级ASR不同,它直接预测音素级别的内容,适用于需要精细语音分析的场景。

模型特点

音素级识别
直接预测国际音标(IPA)音素序列,而非传统单词序列,提供更精细的语音分析能力
高准确率
在LJSpeech测试集上达到0.99%的音素错误率(PER)和0.58%的字符错误率(CER)
专业音标支持
使用gruut音标系统,支持包含重音标记在内的完整国际音标(IPA)表示

模型能力

语音转音素
英语语音识别
精细语音分析

使用案例

语音学研究
音素分析
用于语言学研究中分析语音的音素构成
可精确识别包含重音在内的音素特征
语音技术开发
语音合成前端处理
为文本转语音(TTS)系统提供音素级输入
提高合成语音的准确性和自然度