🚀 Breeze ASR 25
Breeze ASR 25 是一款先进的自动语音识别(ASR)模型,它基于 Whisper-large-v2 进行微调。该模型具有诸多优势,尤其在台湾普通话、普通话 - 英语代码切换场景以及时间对齐方面表现出色,适用于自动字幕生成等任务。

GitHub | 论文
✨ 主要特性
- 针对台湾普通话优化:能更精准地识别台湾普通话语音内容。
- 适用于普通话 - 英语代码切换场景:支持句内切换和句间切换等多种代码切换情况。
- 增强的时间对齐功能:适合自动字幕生成,能更准确地匹配语音和文字的时间。
📦 安装指南
若要进行快速测试,Hugging Face 的 Transformers 支持该模型。首先,安装相关包:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate
💻 使用示例
基础用法
以下示例展示了如何使用 Breeze ASR 25 对音频进行转录,只需将示例中的 input_audio.wav
替换为实际的音频文件名即可。
import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0)
waveform = waveform.squeeze().numpy()
if sample_rate != 16_000:
resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
waveform = resampler(torch.tensor(waveform)).numpy()
sample_rate = 16_000
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()
asr_pipeline = AutomaticSpeechRecognitionPipeline(
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
chunk_length_s=0
)
output = asr_pipeline(waveform, return_timestamps=True)
print("Result:", output["text"])
高级用法
你可以从基准测试中加载音频文件进行测试,以下代码展示了如何获取测试用的 wav 文件。
from datasets import load_dataset
import torch
import torchaudio
ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]
audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]
waveform = torch.tensor(audio_array).unsqueeze(0)
torchaudio.save("input_audio.wav", waveform, sampling_rate)
📚 详细文档
示例
以 MediaTek's 24th Anniversary 为例,展示 Breeze ASR 25 和 Whisper-large-v2 的转录结果。
面對不知道的我們怎麼用 open mind open heart 的心情去 explore
那 explore 過程也就是持續學習 不斷創新
當然如果能帶領 MediaTek 說達到這樣的 position
對做這樣的事情那覺得是一個 commitment
那也是一個 passion 那可以一直很努力的投入在做
面對不知道的我們怎麼用開放心情去探索
把它探索過程也就是 仔細學習 不斷創新
當然如果能帶領MediaTek說 達到這樣的層次 對做這樣的事情
那覺得是一個貢獻那也是一個熱誠
那可以一直來努力地投入在做
性能
以下是不同基准测试数据集上的词错误率(WERR),并与 Whisper-large-v2 自动语言检测(WLV2 - Auto)基线进行对比。在 论文 中,“Breeze ASR 25” 被称为 “Twister”。
短音频数据集
数据集/模型 |
语言 |
WLV2 - Auto % |
WLV3 - Auto % |
COOL - Whisper % |
Breeze ASR 25 (我们的模型) % |
ASCEND - OVERALL* |
混合 |
21.14 |
23.22 |
19.71 |
17.74 (-16.08%) |
- ASCEND - EN |
英语 |
27.36 |
27.21 |
29.39 |
26.64 (-2.63%) |
- ASCEND - ZH |
普通话 |
17.49 |
17.41 |
18.90 |
16.04 (-8.29%) |
- ASCEND - MIX* |
混合 |
21.01 |
25.13 |
17.34 |
16.38 (-22.01%) |
CommonVoice16 - zh - TW |
普通话 |
9.84 |
8.95 |
11.86 |
7.97 (-19%) |
CSZS - zh - en* |
混合 |
29.49 |
26.43 |
20.90 |
13.01 (-55.88%) |
长音频数据集
数据集/模型 |
语言 |
WLV2 - Auto % |
WLV3 - Auto % |
COOL - Whisper % |
Breeze ASR 25 (我们的模型) % |
ML - lecture - 2021 - long* |
普通话 |
6.13 |
6.41 |
6.37 |
4.98 (-18.76%) |
Formosa - Go |
普通话 |
15.03 |
14.90 |
16.83 |
13.61 (-9.44%) |
Formosa - Show |
普通话 |
29.18 |
27.80 |
29.78 |
27.58 (-5.48%) |
Formosa - Course |
普通话 |
9.50 |
9.67 |
11.12 |
9.94 (+0.44%) |
Formosa - General |
普通话 |
11.45 |
11.46 |
13.33 |
11.37 (-0.69%) |
FormosaSpeech |
普通话 |
22.34 |
21.22 |
26.71 |
22.09 (-1.12%) |
注:* 表示代码切换数据集。
训练数据
Breeze ASR 25 的训练数据采样自以下具有宽松开源许可证的公开可用来源,其中所有中文数据均为合成数据。
数据集名称 |
类型 |
语言 |
总时长(小时) |
许可证 |
ODC Synth |
合成 |
普通话 |
10,000 |
Open Data Commons License Attribution + Apache2.0* |
CommonVoice17 - EN |
真实 |
英语 |
1,738 |
Creative Commons Zero |
NTUML2021 |
真实 |
代码切换 |
11 |
MIT License |
注:* ODC Synth 是使用 FineWeb2(ODC License)的文本和 BreezyVoice(Apache2.0 License)的 TTS 模型生成的。
🔧 技术细节
通过对三个数据集进行数据增强生成了额外的代码切换样本,更多详细信息可参考 论文。
📄 许可证
本项目采用 Apache - 2.0 许可证。
致谢
- 感谢 NVIDIA 提供对台北 - 1 超级计算机的访问权限。
- 感谢 Hung - yi Lee 教授对本项目的宝贵指导。
引用
如果您发现该模型有用,请引用我们的工作:
Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data
* 同等贡献
@article{chou2025selfrefiningframeworkenhancingasr,
title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
journal={arXiv preprint arXiv:2506.11130},
year={2025}
}