W

Whisper Large V2

由 openai 开发
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力
下载量 176.55k
发布时间 : 12/5/2022
模型介绍
内容详情
替代品

模型简介

基于Transformer的编码器-解码器模型,支持多语言语音识别和翻译任务,无需微调即可适应多种数据集

模型特点

大规模弱监督训练
使用68万小时标注数据训练,涵盖多种语言和领域
零样本学习能力
无需微调即可适应新数据集和领域
多任务支持
同时支持语音识别和语音翻译任务
长音频处理
通过分块处理支持任意长度音频转录

模型能力

英语语音识别
多语言语音识别
语音翻译为英语
长音频转录
带时间戳的转录

使用案例

语音转录
会议记录
将会议录音自动转为文字记录
支持98种语言的转录
播客字幕生成
为播客内容自动生成字幕
英语转录WER 3.0%(LibriSpeech测试集)
语音翻译
实时翻译
将外语语音实时翻译为英语文本
支持法语等多语言到英语的翻译