xlrs-53-finnish开源语音识别模型 - 支持53种语言的免费语音识别工具

Xlrs 53 Finnish

由 vneralla 开发

XLSR-Wav2Vec2是一个多语言语音识别模型，通过跨语言预训练学习共享语音表征，支持53种语言。

下载量 32

发布时间 : 3/2/2022

模型简介

该模型基于wav2vec 2.0架构，通过多语言原始语音波形预训练，学习跨语言共享的语音表征，适用于自动语音识别等下游任务。

跨语言预训练

在53种语言上预训练，学习跨语言共享的语音表征。

基于wav2vec 2.0

采用wav2vec 2.0架构，通过掩码潜在语音表征的对比任务进行训练。

高性能

在CommonVoice基准测试中，音素错误率相对降低72%；在BABEL数据集上，词错误率相对降低16%。

多语言语音识别

跨语言语音表征学习

语音识别

多语言语音转录

将多种语言的语音转换为文本。

在CommonVoice和BABEL数据集上表现优异。

低资源语言支持

低资源语言语音识别

为资源较少的语言提供语音识别能力。

跨语言预训练显著提升低资源语言的识别性能。

Wav2Vec2-XLSR-53 是基于 16kHz 采样语音音频进行预训练的基础模型。该模型可用于语音相关任务，尤其在自动语音识别等下游任务中表现出色。使用时需确保输入语音也为 16kHz 采样，且通常需要在具体任务上进行微调。

本模型是在 16kHz 采样的语音音频上进行预训练的基础模型。使用该模型时，请确保您的语音输入同样采样为 16kHz。需要注意的是，此模型应在下游任务（如自动语音识别）上进行微调。更多信息请查看此博客。

多语言支持：基于 Facebook 的 XLSR - Wav2Vec2，能够学习跨语言的语音表示。
性能优越：在 CommonVoice 基准测试中，与已知最佳结果相比，相对音素错误率降低了 72%；在 BABEL 上，与可比系统相比，单词错误率相对提高了 16%。
共享表示：分析表明，潜在的离散语音表示在不同语言之间是共享的，相关语言之间的共享程度更高。

论文链接：Paper
作者：Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli
摘要：本文提出了 XLSR，它通过从多种语言的语音原始波形中预训练单个模型来学习跨语言的语音表示。我们基于 wav2vec 2.0 进行构建，该模型通过解决掩码潜在语音表示上的对比任务进行训练，并联合学习跨语言共享的潜在量化。得到的模型在标记数据上进行微调，实验表明跨语言预训练明显优于单语言预训练。在 CommonVoice 基准测试中，与已知最佳结果相比，XLSR 的相对音素错误率降低了 72%。在 BABEL 上，我们的方法与可比系统相比，单词错误率相对提高了 16%。我们的方法实现了一个单一的多语言语音识别模型，其性能可与强大的单个模型相媲美。分析表明，潜在的离散语音表示在不同语言之间是共享的，相关语言之间的共享程度更高。我们希望通过发布在 53 种语言上预训练的大型模型 XLSR - 53，推动低资源语音理解的研究。