whisper-large-zh-cv11开源语音识别模型 - 免费部署精准识别中文普通话

首页

Whisper Large Zh Cv11

由 jonatasgrosman 开发

基于openai/whisper-large-v2在中文(普通话)上使用Common Voice 11数据集微调的语音识别模型

语音识别

Transformers

中文开源协议:Apache-2.0 #中文语音识别 #低CER表现 #多场景适配

下载量 145

发布时间 : 12/18/2022

模型简介

该模型是针对中文(普通话)优化的自动语音识别(ASR)模型，在Common Voice 11数据集上进行了微调，显著提升了中文语音识别准确率。

模型特点

中文优化

针对中文普通话进行了专门微调，显著提升了中文语音识别准确率

多场景评估

在Common Voice和Fleurs两个数据集上进行了全面评估，包含原始文本和标准化文本两种场景

标点支持

能够识别并转录语音中的标点符号

模型能力

普通话语音识别

标点符号识别

大小写转换

使用案例

语音转写

会议记录

将中文会议录音自动转写为文字记录

在Common Voice测试集上CER为9.55%，WER为55.02%

语音笔记

将个人语音备忘录转换为文字

语音助手

中文语音指令识别

用于智能家居或移动设备的中文语音指令识别

🚀 中文（普通话）大模型Whisper

本模型是在中文（普通话）上对 openai/whisper-large-v2 进行微调后的版本，使用了 Common Voice 11 的训练集和验证集。训练过程中并未使用所有验证集数据，我从验证集中提取了 1000 个样本用于微调期间的评估。

🚀 快速开始

环境准备

确保你已经安装了 transformers 库。如果尚未安装，可以使用以下命令进行安装：

pip install transformers

代码示例

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="jonatasgrosman/whisper-large-zh-cv11"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("path/to/my_audio.wav")

💻 使用示例

基础用法

上述代码展示了如何使用该模型进行语音转录。你只需要将 path/to/my_audio.wav 替换为你实际的音频文件路径，即可完成语音转录。

📚 详细文档

评估

我使用了两个数据集的测试集对模型进行了评估，分别是 Common Voice 11（与微调时使用的数据集相同）和 Fleurs（微调期间未使用的数据集）。由于 Whisper 可以转录大小写和标点符号，我在两种不同的场景下进行了模型评估，一种使用原始文本，另一种使用归一化文本（小写 + 去除标点符号）。此外，对于 Fleurs 数据集，我还评估了在没有数值转录的场景下模型的表现，因为该数据集中数值的描述方式与微调时使用的数据集（Common Voice）不同，所以预计这种数值描述方式的差异会影响模型在 Fleurs 数据集上此类转录的性能。

Common Voice 11

模型	字符错误率（CER）	词错误率（WER）
jonatasgrosman/whisper-large-zh-cv11	9.31	55.94
jonatasgrosman/whisper-large-zh-cv11 + 文本归一化	9.55	55.02
openai/whisper-large-v2	33.33	101.80
openai/whisper-large-v2 + 文本归一化	29.90	95.91

Fleurs

模型	字符错误率（CER）	词错误率（WER）
jonatasgrosman/whisper-large-zh-cv11	15.00	93.45
jonatasgrosman/whisper-large-zh-cv11 + 文本归一化	11.76	70.63
jonatasgrosman/whisper-large-zh-cv11 + 仅保留非数值样本	10.95	87.91
jonatasgrosman/whisper-large-zh-cv11 + 文本归一化 + 仅保留非数值样本	7.83	62.12
openai/whisper-large-v2	23.49	101.28
openai/whisper-large-v2 + 文本归一化	17.58	83.22
openai/whisper-large-v2 + 仅保留非数值样本	21.03	101.95
openai/whisper-large-v2 + 文本归一化 + 仅保留非数值样本	15.22	79.28