W

Whisper Large V3

由 unsloth 开发
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
下载量 4,002
发布时间 : 5/14/2025
模型介绍
内容详情
替代品

模型简介

Whisper是一个基于Transformer的编码器-解码器模型,用于自动语音识别和语音翻译任务。large-v3版本在100万小时的弱标注音频和400万小时伪标注音频上训练,支持多种语言,性能优于前代版本

模型特点

多语言支持
支持超过50种语言的语音识别和翻译,包括低资源语言
大规模训练
在100万小时弱标注音频和400万小时伪标注音频上训练,覆盖广泛领域
零样本泛化能力
在未见过的数据集和领域上表现出强大的泛化能力
改进的准确性
相比large-v2版本,错误率降低10-20%
长格式音频处理
支持通过分块或顺序方式处理超过30秒的长音频

模型能力

语音转文本
多语言语音识别
语音翻译(到英语)
时间戳预测
语言检测
长音频处理

使用案例

语音转录
会议记录
自动转录商务会议内容
高准确率的会议记录文本
播客转录
将播客音频转换为可搜索文本
便于内容检索和分析的文本格式
语音翻译
实时翻译
将非英语语音实时翻译为英语文本
跨语言沟通的桥梁
辅助技术
字幕生成
为视频内容自动生成字幕
提高视频内容的可访问性