W

Whisper Large V3 Distil It V0.2

由 bofenghuang 开发
专为意大利语优化的2层解码器蒸馏版Whisper语音转文本模型,提升效率同时保持准确性
下载量 129
发布时间 : 8/22/2024
模型介绍
内容详情
替代品

模型简介

基于OpenAI Whisper-Large-V3的意大利语优化版本,采用2层解码器蒸馏技术,在保持语音识别准确性的同时显著提升推理速度。支持多种推理框架,适合实时语音转文本应用。

模型特点

高效蒸馏架构
仅保留2层解码器,参数量减少51%,推理速度提升5.8倍
长文本优化
扩展30秒音频片段训练,保持长文本转录能力
多框架兼容
支持transformers、openai-whisper、faster-whisper等多种推理框架
推测解码支持
可作为草稿模型与完整Whisper配合使用,实现2倍加速且输出一致

模型能力

意大利语语音识别
长音频转录
实时语音转文本
多框架部署

使用案例

语音转录
会议记录自动化
将意大利语会议录音自动转为文字记录
词错误率(WER)优于同类蒸馏模型
媒体字幕生成
为意大利语视频内容生成准确字幕
支持长达30秒的音频片段处理
实时应用
实时语音翻译前端
作为语音识别模块集成到实时翻译系统
5.8倍速度提升适合实时场景