Belle-whisper-large-v3-zh-punct开源语音识别模型 - 精准识别中文，标点识别能力大幅提升

首页

Belle Whisper Large V3 Zh Punct

由 BELLE-2 开发

基于whisper-large-v3-zh微调的中文语音识别模型，显著提升标点符号识别能力，保持原有性能水准。

语音识别

Transformers

开源协议:Apache-2.0 #中文标点增强 #低CER语音识别 #会议场景优化

下载量 2,471

发布时间 : 6/11/2024

模型简介

本模型专注于中文语音识别任务，特别优化了标点符号识别能力，适用于多种中文语音场景。

模型特点

增强的标点符号识别

整合punc_ct-transformer_cn-en-common-vocab471067-large模型数据，显著提升中文标点识别准确率

无损性能增强

采用LoRA微调技术，在提升标点识别能力的同时保持原有语音识别性能

多场景适应

在会议、网络语音等多种复杂声学场景中表现优异

模型能力

中文语音转文本

自动标点符号插入

多场景语音识别

使用案例

语音转录

会议记录

自动转录会议语音内容并添加正确标点

在wenetspeech_meeting数据集上CER仅10.973%

语音笔记

将个人语音备忘录转换为带标点的文本

语音分析

语音内容分析

为后续NLP处理提供带标点的文本输入

🚀 Belle-whisper-large-v3-zh-punct

Belle-whisper-large-v3-zh-punct 是对 whisper-large-v3-zh 进行微调后的模型，在保持性能的同时增强了中文标点符号处理能力。该模型在多个中文语音识别基准测试中表现出色。

🚀 快速开始

如果您觉得这个模型有帮助，请在模型页面点赞，并在 GitHub 和 GitHub 上给我们加星支持。

✨ 主要特性

标点能力增强：对 whisper-large-v3-zh 进行微调，增强了中文标点符号处理能力。
性能表现优异：在多个中文语音识别基准测试（如 AISHELL1、AISHELL2、WENETSPEECH 和 HKUST）中，表现与 Belle-whisper-large-v3-zh 相当。
标点来源可靠：标点符号来自模型 punc_ct-transformer_cn-en-common-vocab471067-large，并添加到训练数据集中。

📦 安装指南

暂未提供相关安装步骤信息。

💻 使用示例

基础用法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="BELLE-2/Belle-whisper-large-v3-zh-punct"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("my_audio.wav")

🔧 技术细节

微调信息

模型	采样率	训练数据集	微调方式
Belle-whisper-large-v3-zh-punct	16KHz	AISHELL-1 AISHELL-2 WenetSpeech HKUST	lora 微调

为了在不影响性能的前提下加入标点符号，采用了 Lora 微调方法。如果您想在自己的数据集上微调该模型，请参考 GitHub 仓库。

字符错误率（CER）对比

模型	语言标签	aishell_1_test(↓)	aishell_2_test(↓)	wenetspeech_net(↓)	wenetspeech_meeting(↓)	HKUST_dev(↓)
whisper-large-v3	中文	8.085	5.475	11.72	20.15	28.597
Belle-whisper-large-v3-zh	中文	2.781	3.786	8.865	11.246	16.440
Belle-whisper-large-v3-zh-punct	中文	2.945	3.808	8.998	10.973	17.196

值得一提的是，与 Belle-whisper-large-v3-zh 相比，Belle-whisper-large-v3-zh-punct 在复杂声学场景（如 wenetspeech_meeting）中甚至有轻微提升。并且在计算 CER 时，移除了 Belle-whisper-large-v3-zh-punct 的标点符号。

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用说明

使用我们的代码、数据或模型时，请引用我们的论文和 GitHub 仓库：

@misc{BELLE,
  author = {BELLEGroup},
  title = {BELLE: Be Everyone's Large Language model Engine},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/LianjiaTech/BELLE}},
}