S

S2t Large Librispeech Asr

由 facebook 开发
一个用于自动语音识别(ASR)的端到端序列到序列转换器模型,基于LibriSpeech数据集训练
下载量 422
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个语音到文本转换器(S2T),使用标准的自回归交叉熵损失进行训练,能够将语音信号转换为对应的文本转录

模型特点

端到端模型
直接从语音信号生成文本转录,无需中间处理步骤
高性能
在LibriSpeech测试集上取得3.3(clean)和7.5(other)的WER分数
基于转换器架构
利用现代转换器架构进行序列建模

模型能力

英语语音识别
实时语音转文本
长音频处理

使用案例

语音转录
会议记录
将会议录音自动转换为文字记录
高准确率的转录结果
播客转录
将英语播客内容转换为文本
支持长音频处理
辅助技术
听力辅助
为听障人士提供实时字幕
低延迟的语音识别