W

Wav2vec2 Large 960h Lv60

由 facebook 开发
Wav2Vec2是一个强大的语音识别模型,通过自监督学习从原始音频中提取特征,并在有限标记数据下实现高性能语音识别。
下载量 7,011
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型在960小时的Libri-Light和Librispeech语音数据上预训练和微调,专门用于英语自动语音识别任务,支持16kHz采样率的音频输入。

模型特点

自监督学习
通过从原始音频中学习表示,减少对大量标记数据的依赖。
高性能
在Librispeech干净测试集上达到2.2%的WER,表现优异。
数据高效
仅需少量标记数据即可微调出高性能模型,适合资源有限场景。

模型能力

英语语音识别
16kHz音频处理
高准确率转录

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的转录文本
字幕生成
为视频内容生成英文字幕
快速准确的自动字幕
语音助手
语音指令识别
识别和理解用户的语音命令
高精度的指令识别