W

Wav2vec2 Base 960h

由 tommy19970714 开发
Wav2Vec2是一个基于自监督学习的语音识别模型,由Facebook开发,在LibriSpeech数据集上训练,支持英语语音转文本任务。
下载量 19
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个自动语音识别(ASR)系统,能够将英语语音转换为文本。基于Transformer架构,通过960小时的LibriSpeech数据训练。

模型特点

自监督学习
采用自监督学习方法预训练,减少了对手动标注数据的依赖
高准确率
在LibriSpeech测试集上达到3.4% (clean)和8.6% (other)的词错误率(WER)
端到端训练
直接从原始音频学习,无需传统语音识别系统中的独立组件

模型能力

英语语音识别
音频转文本
语音转录

使用案例

语音转写
会议记录
自动转录会议录音
准确率取决于音频质量,在清晰语音上可达96.6%
播客转录
将播客内容转换为文本
辅助技术
实时字幕生成
为视频或直播生成实时字幕