S

Sew D Mid K127 400k Ft Ls100h

由 asapp 开发
SEW-D-mid-k127是由ASAPP Research开发的高效语音识别预训练模型,在性能和效率方面相比wav2vec 2.0有显著改进。
下载量 16
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是用于自动语音识别(ASR)的预训练模型,基于SEW(Squeezed and Efficient Wav2vec)架构,在16kHz采样的语音音频上预训练,需要在特定任务上微调后使用。

模型特点

高效架构设计
相比wav2vec 2.0实现了1.9倍推理加速,同时保持或提升识别准确率
性能优化
在不同模型大小上减少了25-50%的词错误率
多任务适用性
可在自动语音识别、说话人识别、意图分类、情感识别等下游任务上微调使用

模型能力

英语语音识别
语音特征提取
音频内容转录

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
在LibriSpeech clean测试集上WER 4.99
语音转文字服务
为应用程序提供语音到文字的转换功能
在LibriSpeech other测试集上WER 10.95
语音分析
说话人识别
识别和分析不同说话人的语音特征