W

Whisper Large V3

由 openai 开发
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
下载量 4.6M
发布时间 : 11/7/2023
模型介绍
内容详情
替代品

模型简介

Whisper是一个基于Transformer的编码器-解码器模型,支持多种语言的语音识别和翻译任务。large-v3版本相比前代在多种语言上错误率降低10%-20%。

模型特点

大规模训练数据
在超过500万小时的标注音频数据上训练,包括100万小时弱标注数据和400万小时伪标注数据
多语言支持
支持98种语言的语音识别,包括多种低资源语言
零样本泛化能力
在未见过的数据集和领域上表现出强大的零样本泛化性能
改进的准确率
相比large-v2版本,在多种语言上错误率降低10%-20%
时间戳支持
可提供句子级和单词级的时间戳信息

模型能力

语音转文本
多语言语音识别
语音翻译(到英语)
长音频处理
带时间戳的转录

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
准确率高,支持多种语言和口音
播客转录
将播客内容转录为文字便于搜索和存档
支持长时间音频处理
语音翻译
实时翻译
将非英语语音实时翻译为英语文本
翻译质量高,延迟低
字幕生成
视频字幕
为视频内容自动生成字幕
支持时间戳对齐