X

Xls R 300m Et

由 TalTechNLP 开发
基于facebook/wav2vec2-xls-r-300m微调的爱沙尼亚语自动语音识别模型,使用约800小时多样化数据训练
下载量 58
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

这是一个通用爱沙尼亚语ASR模型,主要用于广播对话、访谈、讲座等场景的语音识别

模型特点

多样化训练数据
使用约800小时多样化的爱沙尼亚语数据训练,包括广播语音、自发语音、老年人语音等多种类型
良好性能表现
在Common Voice等测试集上WER为12.5-13.4%,CER为2.7-3.0%,表现优异
专注爱沙尼亚语
专门针对爱沙尼亚语优化,相比通用多语言模型在爱沙尼亚语识别上有更好表现

模型能力

爱沙尼亚语语音识别
广播语音转录
讲座内容转录

使用案例

媒体内容处理
广播节目转录
将广播对话、访谈等内容转录为文字
WER 6.1-7.9%
教育应用
讲座内容记录
将讲座、演讲内容自动转录为文字