W

Wav2vec2 Large Robust Ft Libritts Voxpopuli

由 jbetker 开发
基于wav2vec2-large的语音识别模型,专为生成带标点符号的转录文本设计,适用于TTS模型构建。
下载量 339.01k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型通过微调facebook/wav2vec2-large-robust-ft-libri-960h检查点,新增标点符号词汇表,专注于生成带标点符号的转录文本,尤其适合需要韵律表现的TTS应用。

模型特点

标点符号生成
专为生成带标点符号的转录文本设计,对TTS模型的韵律表现至关重要。
高准确率
在librispeech验证集上取得4.45%的词错率(WER),接近基线模型的4.3%。
纯净音频优化
在libritts和voxpopuli等纯净音频数据集上微调,适合高质量音频转录。

模型能力

语音转文本
标点符号插入
高质量音频转录

使用案例

文本转语音(TTS)
TTS模型转录构建
为TTS模型生成带标点符号的转录文本,提升韵律表现。
改善TTS输出的自然度和表达力。
语音转录
高质量音频转录
适用于libritts等纯净音频的转录任务。
4.45%的词错率(WER)。