W

Wav2vec2 Large 960h Lv60 Self

由 facebook 开发
Facebook开发的Wav2Vec2大模型,基于960小时Libri-Light和Librispeech语音数据预训练和微调,采用自训练目标,在LibriSpeech测试集上达到SOTA效果。
下载量 56.00k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

用于自动语音识别(ASR)的预训练模型,通过自监督学习从原始音频中学习语音表征,再通过微调实现高精度语音转文本。

模型特点

自监督预训练
通过对比学习目标在潜在空间中学习语音表征,减少对标注数据的依赖
高精度识别
在LibriSpeech测试集上达到1.9/3.9 WER(clean/other)的SOTA效果
低资源适应
仅需少量标注数据即可微调,在1小时标注数据下仍超越传统方法

模型能力

英语语音识别
16kHz音频处理
端到端语音转文本

使用案例

语音转录
会议记录自动化
将英语会议录音自动转换为文字记录
高准确率转录,减少人工记录成本
播客字幕生成
为英语播客内容自动生成字幕
支持批量处理,准确率达96%以上
辅助技术
听力障碍辅助
实时将语音转换为文字供听力障碍人士阅读
低延迟实时转换