S

Speecht5 Asr

由 microsoft 开发
基于LibriSpeech数据集微调的SpeechT5自动语音识别模型,支持将语音转换为文本。
下载量 12.30k
发布时间 : 2/2/2023
模型介绍
内容详情
替代品

模型简介

SpeechT5是一个统一的模态编码器-解码器预训练框架,专为口语处理任务设计,支持语音识别等多种任务。

模型特点

统一模态框架
通过共享的编码器-解码器网络处理语音和文本,实现跨模态表示学习。
跨模态向量量化
采用随机混合语音/文本状态与潜在单元的方法,实现文本与语音信息在统一语义空间的对齐。
多任务支持
不仅支持语音识别,还可用于语音合成、语音翻译、语音转换等多种口语处理任务。

模型能力

语音识别
语音转文本

使用案例

语音处理
自动语音识别
将语音内容转换为文本,适用于会议记录、语音助手等场景。
在LibriSpeech数据集上表现优越。