W

Whisper Medium

由 openai 开发
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的跨领域泛化能力。
下载量 394.31k
发布时间 : 9/26/2022
模型介绍
内容详情
替代品

模型简介

基于Transformer的编码器-解码器架构,支持多语言语音识别和翻译任务,无需微调即可在多种场景下表现良好。

模型特点

大规模预训练
使用68万小时的标注语音数据训练,覆盖多种语言和口音
零样本泛化能力
无需微调即可在新领域和数据集上表现良好
多任务支持
同时支持语音识别(同语言转录)和语音翻译(跨语言翻译)
多语言支持
支持96种语言的转录和翻译任务

模型能力

语音转文本
跨语言语音翻译
多语言语音识别
长音频处理

使用案例

语音转录
会议记录自动生成
将会议录音实时转换为文字记录
在LibriSpeech测试集上WER(词错误率)2.9(clean)/5.9(other)
播客字幕生成
为播客内容自动生成字幕文件
语音翻译
实时语音翻译
将法语语音实时翻译为英语文本
支持96种语言间的翻译转换