W

Wav2vec2 Base 960h

由 facebook 开发
Facebook开发的Wav2Vec2基础模型,在960小时的Librispeech语音音频上进行了预训练和微调,用于英语自动语音识别任务。
下载量 2.1M
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个自动语音识别(ASR)模型,能够将英语语音转换为文本。它在Librispeech数据集上进行了预训练和微调,支持16kHz采样率的音频输入。

模型特点

高效语音识别
在Librispeech清晰测试集上达到3.4%的词错误率(WER),表现出色。
有限标记数据下的高性能
仅使用十分钟的标记数据和53k小时的无标记数据进行预训练,仍能达到4.8/8.2的WER。
16kHz采样率支持
模型针对16kHz采样率的音频进行了优化,使用时需确保输入音频符合此规格。

模型能力

英语语音识别
音频转文本
自动语音转录

使用案例

语音转录
会议记录
将会议录音自动转换为文字记录
高准确率的转录结果
播客转录
将英语播客内容转换为可搜索的文本
便于内容检索和分析
辅助技术
语音输入系统
为残障人士提供语音转文字功能
提高可访问性