W

Whisper Small

由 unsloth 开发
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
下载量 50
发布时间 : 5/14/2025
模型介绍
内容详情
替代品

模型简介

基于Transformer的编码器-解码器模型,支持多语言语音识别和翻译任务,无需微调即可适应多种数据集和领域。

模型特点

大规模弱监督训练
使用68万小时多样化语音数据训练,涵盖多种语言和口音
零样本迁移能力
无需微调即可在新语言和领域上表现良好
多任务统一架构
单一模型同时支持语音识别和翻译任务
长音频处理
通过分块算法支持任意长度音频转录

模型能力

语音转文本
跨语言语音翻译
多语言识别
带时间戳的转录

使用案例

语音转录
会议记录自动化
将会议录音实时转换为文字记录
英语测试集WER 3.43%(LibriSpeech clean)
播客字幕生成
为非英语播客创建多语言字幕
语音翻译
实时语音翻译
将法语等语言实时翻译为英语文本
示例显示流畅的跨语言转换能力