W

Wav2vec2 Pretrained Clsril 23 10k

由 Harveenchadha 开发
基于自监督学习的音频预训练模型,能够从23种印度语言的原始音频中学习跨语言语音表征
下载量 32
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

CLSRIL-23是基于wav2vec 2.0架构的语音表征模型,通过对比学习任务训练,可学习23种印度语言的共享语音特征表示。该模型特别适用于印度多语言环境下的语音处理任务。

模型特点

多语言支持
支持23种印度语言的语音表征学习,覆盖主要印度语系
自监督学习
采用自监督学习方法,无需大量标注数据即可学习有效语音表征
共享量化表示
联合学习所有语言共享的潜在量化表示,有利于跨语言迁移
大规模训练数据
训练数据总量超过9000小时,其中印地语数据量最大(4563.7小时)

模型能力

跨语言语音表征学习
语音特征提取
多语言语音处理

使用案例

语音识别
多语言自动语音识别
在印度多语言环境下构建语音识别系统
语音技术开发
语音特征提取
作为下游语音任务的预训练特征提取器