Breeze-ASR-25开源语音识别模型 - 精准识别台湾普通话及中英切换场景

首页

Breeze ASR 25

由 MediaTek-Research 开发

Breeze ASR 25 是一款基于 Whisper-large-v2 微调的先进自动语音识别模型，特别优化了台湾普通话和普通话-英语代码切换场景的识别能力。

语音识别

Safetensors

支持多种语言开源协议:Apache-2.0 #台湾普通话优化 #中英代码切换 #精准时间对齐

下载量 10.33k

发布时间 : 6/6/2025

模型简介

Breeze ASR 25 是一款高性能的自动语音识别模型，针对台湾普通话和普通话-英语代码切换场景进行了优化，适用于自动字幕生成等任务。

模型特点

台湾普通话优化

能更精准地识别台湾普通话语音内容

代码切换支持

支持普通话-英语代码切换场景，包括句内切换和句间切换

时间对齐增强

提供更准确的时间对齐功能，适合自动字幕生成

高性能

在多个基准测试中表现优于 Whisper-large-v2

模型能力

语音识别

多语言支持

代码切换识别

时间对齐

使用案例

字幕生成

自动字幕生成

为视频内容生成准确的时间对齐字幕

相比 Whisper-large-v2 提高了识别准确率

语音转写

台湾普通话转写

准确转写台湾普通话内容

在 CommonVoice16 - zh - TW 数据集上 WERR 降低 19%

代码切换转写

处理普通话-英语混合的语音内容

在 CSZS - zh - en 数据集上 WERR 降低 55.88%

🚀 Breeze ASR 25

Breeze ASR 25 是一款先进的自动语音识别（ASR）模型，它基于 Whisper-large-v2 进行微调。该模型具有诸多优势，尤其在台湾普通话、普通话 - 英语代码切换场景以及时间对齐方面表现出色，适用于自动字幕生成等任务。

Breeze ASR 25

GitHub | 论文

✨ 主要特性

针对台湾普通话优化：能更精准地识别台湾普通话语音内容。
适用于普通话 - 英语代码切换场景：支持句内切换和句间切换等多种代码切换情况。
增强的时间对齐功能：适合自动字幕生成，能更准确地匹配语音和文字的时间。

📦 安装指南

若要进行快速测试，Hugging Face 的 Transformers 支持该模型。首先，安装相关包：

pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate

💻 使用示例

基础用法

以下示例展示了如何使用 Breeze ASR 25 对音频进行转录，只需将示例中的 input_audio.wav 替换为实际的音频文件名即可。

import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline

# 1. 加载音频
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)          

# 2. 预处理
if waveform.shape[0] > 1:
    waveform = waveform.mean(dim=0)                         
waveform = waveform.squeeze().numpy()                        

if sample_rate != 16_000:
    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
    waveform = resampler(torch.tensor(waveform)).numpy()
    sample_rate = 16_000

# 3. 加载模型
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()

# 4. 构建管道
asr_pipeline = AutomaticSpeechRecognitionPipeline(
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=0
)

# 6. 推理
output = asr_pipeline(waveform, return_timestamps=True)  
print("Result:", output["text"])

高级用法

你可以从基准测试中加载音频文件进行测试，以下代码展示了如何获取测试用的 wav 文件。

from datasets import load_dataset
import torch
import torchaudio


ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]

audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]

waveform = torch.tensor(audio_array).unsqueeze(0)

torchaudio.save("input_audio.wav", waveform, sampling_rate)

# 解码结果:
# Breeze ASR 25: "ÊîæÈÄ≤‰Ω†ÁöÑ training Ë£°Èù¢" (正确)
# Whisper: "ÊîæÈÄ≤‰Ω†ÁöÑÊ¨äÂà©Ë£°Èù¢"

📚 详细文档

示例

以 MediaTek's 24th Anniversary 为例，展示 Breeze ASR 25 和 Whisper-large-v2 的转录结果。

Breeze ASR 25：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî® open mind open heart ÁöÑÂøÉÊÉÖÂéª explore
ÈÇ£ explore ÈÅéÁ®ã‰πüÂ∞±ÊòØÊåÅÁ∫åÂ≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†ò MediaTek Ë™™ÈÅîÂà∞ÈÄôÊ®£ÁöÑ position
Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄã commitment
ÈÇ£‰πüÊòØ‰∏ÄÂÄã passion ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥ÂæàÂä™ÂäõÁöÑÊäïÂÖ•Âú®ÂÅö

Whisper-large-v2：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî®ÈñãÊîæÂøÉÊÉÖÂéªÊé¢Á¥¢
ÊääÂÆÉÊé¢Á¥¢ÈÅéÁ®ã‰πüÂ∞±ÊòØ ‰ªîÁ¥∞Â≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†òMediaTekË™™ ÈÅîÂà∞ÈÄôÊ®£ÁöÑÂ±§Ê¨° Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖ
ÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄãË≤¢ÁçªÈÇ£‰πüÊòØ‰∏ÄÂÄãÁÜ±Ë™†
ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥‰æÜÂä™ÂäõÂú∞ÊäïÂÖ•Âú®ÂÅö

性能

以下是不同基准测试数据集上的词错误率（WERR），并与 Whisper-large-v2 自动语言检测（WLV2 - Auto）基线进行对比。在论文中，“Breeze ASR 25” 被称为 “Twister”。

短音频数据集

数据集/模型	语言	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (我们的模型) %
ASCEND - OVERALL*	混合	21.14	23.22	19.71	17.74 (-16.08%)
- ASCEND - EN	英语	27.36	27.21	29.39	26.64 (-2.63%)
- ASCEND - ZH	普通话	17.49	17.41	18.90	16.04 (-8.29%)
- ASCEND - MIX*	混合	21.01	25.13	17.34	16.38 (-22.01%)
CommonVoice16 - zh - TW	普通话	9.84	8.95	11.86	7.97 (-19%)
CSZS - zh - en*	混合	29.49	26.43	20.90	13.01 (-55.88%)

长音频数据集

数据集/模型	语言	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (我们的模型) %
ML - lecture - 2021 - long*	普通话	6.13	6.41	6.37	4.98 (-18.76%)
Formosa - Go	普通话	15.03	14.90	16.83	13.61 (-9.44%)
Formosa - Show	普通话	29.18	27.80	29.78	27.58 (-5.48%)
Formosa - Course	普通话	9.50	9.67	11.12	9.94 (+0.44%)
Formosa - General	普通话	11.45	11.46	13.33	11.37 (-0.69%)
FormosaSpeech	普通话	22.34	21.22	26.71	22.09 (-1.12%)

注：* 表示代码切换数据集。

训练数据

Breeze ASR 25 的训练数据采样自以下具有宽松开源许可证的公开可用来源，其中所有中文数据均为合成数据。

数据集名称	类型	语言	总时长（小时）	许可证
ODC Synth	合成	普通话	10,000	Open Data Commons License Attribution + Apache2.0*
CommonVoice17 - EN	真实	英语	1,738	Creative Commons Zero
NTUML2021	真实	代码切换	11	MIT License

注：* ODC Synth 是使用 FineWeb2（ODC License）的文本和 BreezyVoice（Apache2.0 License）的 TTS 模型生成的。

🔧 技术细节

通过对三个数据集进行数据增强生成了额外的代码切换样本，更多详细信息可参考论文。

📄 许可证

本项目采用 Apache - 2.0 许可证。

致谢

感谢 NVIDIA 提供对台北 - 1 超级计算机的访问权限。
感谢 Hung - yi Lee 教授对本项目的宝贵指导。

引用

如果您发现该模型有用，请引用我们的工作： Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data

* 同等贡献

@article{chou2025selfrefiningframeworkenhancingasr,
  title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
  author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
  journal={arXiv preprint arXiv:2506.11130},
  year={2025}
}