W

Whisper Large V3 Turbo

由 openai 开发
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
下载量 4.0M
发布时间 : 10/1/2024
模型介绍
内容详情
替代品

模型简介

Whisper large-v3-turbo是Whisper large-v3的剪枝微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。

模型特点

高效推理
通过减少解码层数实现更快的推理速度,适合实时应用场景
多语言支持
支持90多种语言的语音识别和翻译
零样本泛化能力
在未见过的数据集和领域上表现出色
长音频处理
支持分块处理长音频文件,提高处理效率

模型能力

语音转文本
多语言语音识别
语音翻译(到英语)
时间戳预测
语言检测

使用案例

转录服务
会议记录
自动转录会议录音
准确率高,支持多种语言
播客转录
将播客内容转为文字
支持长时间音频处理
翻译服务
实时翻译
将非英语语音实时翻译为英语文本
翻译质量接近人工水平