许可证: mit
语言: fr
库名称: transformers
任务标签: automatic-speech-recognition
缩略图: 无
标签:
- 自动语音识别
- hf-asr排行榜
数据集:
- mozilla-foundation/common_voice_17_0
- facebook/multilingual_librispeech
- facebook/voxpopuli
- gigant/african_accented_french
- espnet/yodas
评估指标:
- wer
Whisper-Large-V3蒸馏法语版v0.2
专为法语语音转文本优化的Whisper蒸馏版本,仅保留2层解码器结构。
相较于v0.1版本,本版本将训练音频扩展至30秒片段以保持长文本转录能力。训练过程采用"耐心教师"蒸馏策略——即延长训练周期并加强数据增强——从而提升整体性能。
本模型以openai/whisper-large-v3为教师模型,同时保持编码器架构不变。这使其既可作为推测解码的草稿模型(仅增加2层解码器且编码器单次运行,在保证输出一致性的情况下实现2倍推理加速),也可作为独立模型在牺牲少量准确率的情况下提升效率(速度提升5.8倍,参数量仅需原模型的49%)。该论文还指出,在长文本转录时,蒸馏模型可能比完整版产生更少的幻觉输出。
模型已转换为多种格式以确保跨库兼容性,包括transformers、openai-whisper、faster-whisper、whisper.cpp、candle、mlx等框架。
性能表现
模型在短文本和长文本转录任务上均进行了评估,使用分布内(ID)和分布外(OOD)数据集以检验准确性、泛化性和鲁棒性。
注:此处词错误率(WER)结果为后规范化数值,包含文本小写化和符号标点去除处理。
公开数据集全部评估结果可在此查看。
短文本转录

斜体表示分布内(ID)评估,即测试集与训练数据分布一致,通常表现优于分布外(OOD)评估。*斜体删除线*表示可能存在测试集污染——例如当训练与评估使用不同版本的Common Voice时,数据可能存在重叠。
由于法语分布外(OOD)和长文本测试集资源有限,额外使用Zaion Lab内部测试集进行评估,该数据集包含人工标注的客服通话记录,具有显著背景噪声和领域专有术语。
长文本转录
长文本评估采用🤗 Hugging Face的分块解码(chunk_length_s=30)和原始序列解码两种方法。

使用方式
Hugging Face流水线
通过🤗 Hugging Face的流水线可轻松实现音频转录。对于超过30秒的长文本,将自动采用OpenAI论文中的序列解码算法。若需更快推理,可使用chunk_length_s
参数开启分块并行解码,虽性能可能略逊于OpenAI序列算法,但可获得9倍加速。
Hugging Face底层API
通过底层API可更精细控制转录过程:
推测解码
推测解码通过草稿模型(即Whisper蒸馏版)实现,保证与主模型输出完全一致的同时获得2倍加速,仅轻微增加内存开销。由于蒸馏版与原模型编码器相同,推理时只需加载解码器并共享编码器输出。
在流水线中启用推测解码只需指定生成配置中的assistant_model
:
OpenAI Whisper原生格式
使用OpenAI原始论文中的滑动窗口温度回退算法进行长文本解码:
Faster Whisper
CTranslate2格式的Whisper重构实现,相比原生版本最高提速4倍且内存占用更低,支持int8量化:
Whisper.cpp
纯C/C++实现的跨平台无依赖方案,支持4/5比特量化:
Candle框架
Rust轻量框架实现:
MLX框架
苹果芯片专用ML框架实现:
训练细节
我们构建了超过22,000小时的法语语音识别数据集,经Whisper-Large-V3解码并过滤WER高于20%的片段后,保留约10,000小时高质量音频。
数据集 |
总时长(h) |
过滤后时长(h) <20% WER |
mcv |
800.37 |
687.02 |
mls |
1076.58 |
1043.87 |
...(完整表格详见原文) |
|
|
多数数据被拼接为30秒片段(尽量保持同一说话人),50%片段训练时保留时间戳,仅20%片段使用上文语境训练。模型经过160个epoch的强化数据增强训练,部分超参选择偏向长文本转录优化。完整训练细节参见Distil-Whisper仓库。
训练在GENCI的Jean-Zay超算完成,特别感谢IDRIS团队的支持。
致谢