X

Xlrs 53 Finnish

由 vneralla 开发
XLSR-Wav2Vec2是一个多语言语音识别模型,通过跨语言预训练学习共享语音表征,支持53种语言。
下载量 32
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型基于wav2vec 2.0架构,通过多语言原始语音波形预训练,学习跨语言共享的语音表征,适用于自动语音识别等下游任务。

模型特点

跨语言预训练
在53种语言上预训练,学习跨语言共享的语音表征。
基于wav2vec 2.0
采用wav2vec 2.0架构,通过掩码潜在语音表征的对比任务进行训练。
高性能
在CommonVoice基准测试中,音素错误率相对降低72%;在BABEL数据集上,词错误率相对降低16%。

模型能力

多语言语音识别
跨语言语音表征学习

使用案例

语音识别
多语言语音转录
将多种语言的语音转换为文本。
在CommonVoice和BABEL数据集上表现优异。
低资源语言支持
低资源语言语音识别
为资源较少的语言提供语音识别能力。
跨语言预训练显著提升低资源语言的识别性能。