wav2vec2-large-robust-ft-libritts-voxpopuli开源语音识别模型 - 生成带标点转录文本，助力TTS构建

首页

Wav2vec2 Large Robust Ft Libritts Voxpopuli

由 jbetker 开发

基于wav2vec2-large的语音识别模型，专为生成带标点符号的转录文本设计，适用于TTS模型构建。

语音识别

Transformers

#TTS韵律优化 #标点符号转录 #纯净音频适配

下载量 339.01k

发布时间 : 3/2/2022

模型简介

该模型通过微调facebook/wav2vec2-large-robust-ft-libri-960h检查点，新增标点符号词汇表，专注于生成带标点符号的转录文本，尤其适合需要韵律表现的TTS应用。

模型特点

标点符号生成

专为生成带标点符号的转录文本设计，对TTS模型的韵律表现至关重要。

高准确率

在librispeech验证集上取得4.45%的词错率（WER），接近基线模型的4.3%。

纯净音频优化

在libritts和voxpopuli等纯净音频数据集上微调，适合高质量音频转录。

模型能力

语音转文本

标点符号插入

高质量音频转录

使用案例

文本转语音（TTS）

TTS模型转录构建

为TTS模型生成带标点符号的转录文本，提升韵律表现。

改善TTS输出的自然度和表达力。

语音转录

高质量音频转录

适用于libritts等纯净音频的转录任务。

4.45%的词错率（WER）。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Wav2vec2 Large Robust Ft Libritts Voxpopuli

模型简介

模型特点

模型能力

使用案例

🚀 语音转录模型

🚀 快速开始

✨ 主要特性

🔧 技术细节

💻 使用示例