sew-d-tiny-100k开源语音预训练模型 - 适用于多种下游语音任务

Sew D Tiny 100k

由 asapp 开发

SEW-D是由ASAPP Research开发的压缩高效型语音预训练模型，基于16kHz采样的语音音频进行预训练，适用于多种下游语音任务。

下载量 1,074

发布时间 : 3/2/2022

模型简介

SEW-D是一种高效的语音预训练模型，专为自动语音识别等任务设计，通过优化架构实现性能与效率的双重提升。

高效推理

相比wav2vec 2.0实现了1.9倍的推理加速。

性能提升

在相近推理耗时下，词错误率降低25%-50%。

优化架构

通过系统化分析架构设计，实现性能与效率的双重提升。

语音识别

说话人识别

意图分类

情感识别

语音处理

自动语音识别

将语音转换为文本

在LibriSpeech数据集上词错误率相对降低13.5%

说话人识别

识别不同说话人的身份

SEW-D-tiny 是基于 16kHz 采样语音音频预训练的基础模型。该模型可用于多种语音相关下游任务，如自动语音识别、说话人识别、意图分类、情感识别等。使用时需确保输入语音也为 16kHz 采样。

本模型是在 16kHz 采样的语音音频上进行预训练的基础模型。使用该模型时，请确保您的语音输入同样采用 16kHz 采样。请注意，此模型需要在下游任务（如自动语音识别、说话人识别、意图分类、情感识别等）上进行微调。

高效性能：论文中提到，在 LibriSpeech 的 100h - 960h 半监督设置下，与 wav2vec 2.0 相比，SEW 实现了 1.9 倍的推理加速，字错误率相对降低了 13.5%。在相似的推理时间下，SEW 在不同模型大小上可将字错误率降低 25 - 50%。
可扩展性：适用于多种语音相关的下游任务。

论文标题：Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
作者：Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi
摘要：本文研究了用于自动语音识别（ASR）的预训练模型中的性能 - 效率权衡问题。我们专注于 wav2vec 2.0，并形式化了几种影响模型性能和效率的架构设计。综合我们的所有观察结果，我们引入了 SEW（Squeezed and Efficient Wav2vec），这是一种预训练模型架构，在各种训练设置下，在性能和效率方面都有显著改进。例如，在 LibriSpeech 的 100h - 960h 半监督设置下，与 wav2vec 2.0 相比，SEW 实现了 1.9 倍的推理加速，字错误率相对降低了 13.5%。在相似的推理时间下，SEW 在不同模型大小上可将字错误率降低 25 - 50%。