W

Wav2vec2 Base Vi Vlsp2020

由 nguyenvulebinh 开发
基于wav2vec2架构的越南语自动语音识别模型,预训练于13,000小时未标注YouTube音频,并在250小时标注数据上微调。
下载量 262
发布时间 : 11/4/2022
模型介绍
内容详情
替代品

模型简介

该模型专为越南语自动语音识别(ASR)设计,支持带语言模型的解码以提高准确率。

模型特点

大规模预训练
使用13,000小时越南语YouTube音频进行自监督预训练
高精度微调
在VLSP ASR数据集的250小时标注数据上微调
语言模型集成
支持5-gram语言模型解码,显著降低WER

模型能力

越南语语音识别
带语言模型的语音解码

使用案例

语音转录
越南语语音转文本
将越南语语音内容转换为文本
测试集WER低至5.32%(带语言模型)