W

Whisper Large

由 openai 开发
Whisper是一个用于自动语音识别(ASR)和语音翻译的预训练模型,在68万小时标注数据上训练,具有强大的泛化能力。
下载量 175.34k
发布时间 : 9/26/2022
模型介绍
内容详情
替代品

模型简介

Whisper是基于Transformer的编码器-解码器模型,支持多语言语音识别和翻译任务,无需微调即可适应多种数据集。

模型特点

大规模预训练
在68万小时的标注语音数据上训练,具有强大的泛化能力
多语言支持
支持96种语言的语音识别和翻译任务
零样本学习
无需微调即可适应多种数据集和领域
多功能任务
同时支持语音识别(同语言转录)和语音翻译(跨语言翻译)

模型能力

英语语音识别
多语言语音识别
语音翻译
音频转录
自动字幕生成

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
在LibriSpeech测试集上WER(词错误率)为3.0(干净)和5.4(其他)
播客字幕
为播客内容生成自动字幕
语音翻译
实时翻译
将一种语言的语音实时翻译为另一种语言的文字