W

Whisper Base

由 openai 开发
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的泛化能力。
下载量 491.35k
发布时间 : 9/26/2022
模型介绍
内容详情
替代品

模型简介

Whisper是基于Transformer的编码器-解码器模型,支持多种语言的语音识别和翻译任务,无需微调即可适应不同数据集和领域。

模型特点

大规模预训练
使用68万小时标注语音数据训练,具有强大的泛化能力
多语言支持
支持99种语言的语音识别和翻译任务
零样本学习
无需微调即可适应不同数据集和领域
多功能任务
同时支持语音识别和语音翻译两种任务模式

模型能力

英语语音识别
多语言语音识别
跨语言语音翻译
音频转录
语音转文本

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
在LibriSpeech清晰测试集上WER为5.01
播客转录
将播客内容转换为可搜索的文本
语音翻译
实时翻译
将一种语言的语音实时翻译为另一种语言的文本