wav2vec2-pretrained-clsril-23-10k开源音频模型 - 从23种印度语原始音频学表征

Wav2vec2 Pretrained Clsril 23 10k

由 Harveenchadha 开发

基于自监督学习的音频预训练模型，能够从23种印度语言的原始音频中学习跨语言语音表征

下载量 32

发布时间 : 3/2/2022

模型简介

CLSRIL-23是基于wav2vec 2.0架构的语音表征模型，通过对比学习任务训练，可学习23种印度语言的共享语音特征表示。该模型特别适用于印度多语言环境下的语音处理任务。

多语言支持

支持23种印度语言的语音表征学习，覆盖主要印度语系

自监督学习

采用自监督学习方法，无需大量标注数据即可学习有效语音表征

共享量化表示

联合学习所有语言共享的潜在量化表示，有利于跨语言迁移

大规模训练数据

训练数据总量超过9000小时，其中印地语数据量最大(4563.7小时)

跨语言语音表征学习

语音特征提取

多语言语音处理

语音识别

多语言自动语音识别

在印度多语言环境下构建语音识别系统

语音技术开发

语音特征提取

作为下游语音任务的预训练特征提取器