W

Wav2vec2 Large Lv60h 100h 2nd Try

由 patrickvonplaten 开发
基于LibriSpeech数据集微调的wav2vec2-large-lv60语音识别模型,支持英语语音转文本任务
下载量 20
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是Facebook Research发布的wav2vec2系列模型之一,通过自监督学习预训练后,在100小时的LibriSpeech-clean数据上微调,用于英语语音识别任务。

模型特点

高效微调
仅使用100小时标注数据即可达到接近全量数据微调的性能
动态批次填充
训练时自动优化批次填充策略,提高GPU利用率
混合精度训练
支持fp16混合精度训练,减少显存占用并加速训练过程

模型能力

英语语音识别
高精度语音转文本
长音频处理(支持750秒批次)

使用案例

语音转录
会议记录自动生成
将英语会议录音自动转换为文字记录
在LibriSpeech测试集上达到4.0(clean)/10.3(other)的WER
播客内容索引
为英语播客节目创建可搜索的文字索引