W

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

由 gxbag 开发
基于Facebook的wav2vec2-large-960h-lv60-self模型,通过增强维基百科语言模型改进的自动语音识别(ASR)系统
下载量 15
发布时间 : 4/20/2022
模型介绍
内容详情
替代品

模型简介

该模型结合了Facebook的wav2vec2语音识别架构和维基百科文本训练的5-gram语言模型,提高了语音转文字的准确性。

模型特点

增强语言模型
使用维基百科全文训练的5-gram KenLM语言模型,提高了识别准确性
大规模训练
基于960小时语音数据和800多万单词的文本数据训练
优化处理
对维基百科数据进行了清理,移除了参考文献、外部链接等非正文内容
高效剪枝
语言模型中所有3-gram及更大规模的单例词均被剪枝,保持模型效率

模型能力

英语语音识别
长音频处理(支持分块处理)
高准确率转录

使用案例

语音转录
会议记录
将会议录音自动转换为文字记录
提高会议记录效率,便于后期检索
播客转录
将播客内容转换为文字版本
便于内容索引和SEO优化
辅助技术
实时字幕生成
为视频或直播生成实时字幕
提高内容可访问性