S

Sew D Mid 400k Ft Ls100h

由 asapp 开发
SEW-D-mid是由ASAPP Research开发的语音预训练模型,专注于自动语音识别任务,在性能和效率之间取得了良好平衡。
下载量 20
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是基于SEW架构的语音预训练模型,在16kHz采样的语音音频上进行预训练,适用于自动语音识别、说话人识别、意图分类等下游任务。

模型特点

高效性能平衡
相比wav2vec 2.0实现了1.9倍推理加速,同时词错误率相对降低13.5%
多任务适用性
可在多种语音相关下游任务上微调,包括ASR、说话人识别、意图分类等
优化架构设计
采用SEW架构,综合多种优化设计提升模型效率

模型能力

语音识别
语音特征提取
音频内容理解

使用案例

语音转录
会议记录转录
将会议录音自动转录为文字记录
在LibriSpeech clean测试集上WER为4.94
语音指令识别
识别和理解语音指令
语音分析
说话人识别
识别语音中的说话人特征