P

Phoneme Scorer V2 Wav2vec2

由 ct-vikramanantha 开发
基于Wav2Vec2-Base架构的自动语音识别模型,专门用于音素识别,在LJSpeech Phonemes数据集上微调
下载量 167
发布时间 : 7/13/2024
模型介绍
内容详情
替代品

模型简介

该模型是一个自动语音识别(ASR)系统,专注于将语音转换为音素序列而非单词序列。它使用国际音标(IPA)音素作为输出单位,适用于需要音素级别分析的语音处理任务。

模型特点

音素级别识别
模型直接预测国际音标(IPA)音素序列,而非传统单词序列,适用于需要音素分析的语音处理任务
高精度
在LJSpeech测试集上达到0.99%的音素错误率(PER)和0.58%的字符错误率(CER)
基于Gruut音素集
使用gruut项目中的国际音标(IPA)音素集,支持丰富的音素表示

模型能力

语音转音素
自动语音识别
音素级别分析

使用案例

语音处理
音素分析研究
用于语言学研究中分析语音的音素构成
可提供精确的音素级别转录
语音合成预处理
为语音合成系统提供音素级别的输入
提高合成语音的准确性和自然度