S

Sew D Base Plus 400k Ft Ls100h

由 asapp 开发
SEW-D-base+ 是由 ASAPP Research 开发的高效语音识别模型,基于 16kHz 采样的语音音频进行预训练,在 LibriSpeech 数据集上表现出色。
下载量 66
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一种高效的自动语音识别(ASR)模型,针对下游任务如语音识别、说话人识别、意图分类等进行了优化。相比 wav2vec 2.0,它在保持性能的同时显著提升了推理效率。

模型特点

高效推理
相比 wav2vec 2.0 实现了 1.9 倍的推理加速
性能优化
在 LibriSpeech 100h-960h 半监督设置下,词错误率相对降低 13.5%
多任务适应
可微调用于多种下游任务,包括语音识别、说话人识别、意图分类等

模型能力

语音识别
说话人识别
意图分类
情感识别

使用案例

语音转录
会议记录转录
将会议录音自动转录为文字记录
在 LibriSpeech clean 测试集上 WER 4.34
语音助手
用于智能语音助手的语音识别模块
在 LibriSpeech other 测试集上 WER 9.45