W

Wav2vec2 Large Robust Ft Swbd 300h

由 facebook 开发
该模型是Facebook Wav2Vec2-Large-Robust的微调版本,专门针对电话语音识别任务优化,使用300小时Switchboard电话语音语料库进行微调。
下载量 2,543
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

一个针对电话语音场景优化的自动语音识别(ASR)模型,在噪声环境下表现优异。支持16kHz采样率的音频输入。

模型特点

多领域预训练
预训练阶段整合了有声书(Libri-Light)、朗读语音(CommonVoice)和电话语音(Switchboard/Fisher)多领域数据
噪声鲁棒性
专门针对含噪声的电话语音场景优化,在Switchboard电话语料上微调300小时
跨领域适应
论文证明使用目标领域未标注数据预训练可显著提升模型在领域内外数据上的表现

模型能力

英语语音转文本
噪声环境语音识别
电话语音转录

使用案例

语音转录服务
客服电话自动转录
将客服中心的通话内容自动转为文字记录
在噪声电话环境下保持较高识别准确率
语音分析
通话内容分析
对商业或研究场景中的电话录音进行内容分析