whisper-large-v2-cantonese开源粤语语音识别模型 - 免费部署准确识别粤语语音

首页

Whisper Large V2 Cantonese

由 Scrya 开发

基于OpenAI Whisper Large V2模型微调的粤语自动语音识别(ASR)模型，在Common Voice 11.0粤语数据集上训练，字错误率(CER)为6.21%。

语音识别

Transformers

其他开源协议:Apache-2.0 #粤语语音识别 #低字错误率 #实时音频增强

下载量 210

发布时间 : 12/19/2022

模型简介

这是一个专门针对粤语优化的自动语音识别模型，通过数据增强技术提升了识别准确率，适用于粤语语音转文字场景。

模型特点

粤语优化

专门针对粤语语音特点进行微调，相比通用模型有更好的识别准确率

数据增强

训练时使用音高偏移和时间拉伸等音频增强技术，提升模型鲁棒性

低错误率

在Common Voice粤语测试集上达到6.21%的字错误率(CER)

模型能力

粤语语音识别

语音转文字

音频转录

使用案例

语音转录

粤语会议记录

将粤语会议录音自动转换为文字记录

准确率约93.79%(CER 6.21%)

媒体字幕生成

为粤语视频内容自动生成字幕

语音助手

粤语语音指令识别

用于支持粤语的智能家居或语音助手系统

🚀 Whisper Large V2 - 粤语 - 增强版

本模型是 openai/whisper-large-v2 在 mozilla-foundation/common_voice_11_0 数据集上的微调版本。它在评估集上取得了以下成果：

损失率：0.1828
字符错误率（CER）：6.2133

🚀 快速开始

此模型为在特定数据集上微调的版本，若要使用，可参考原模型 openai/whisper-large-v2 的使用方式进行操作。

✨ 主要特性

基于 openai/whisper-large-v2 进行微调，在粤语语音识别任务上有特定表现。
训练过程中使用 audiomentations 对数据集进行实时增强。

📚 详细文档

模型描述

该模型是 openai/whisper-large-v2 在粤语语音数据集上的微调版本，用于粤语的自动语音识别任务。

预期用途与限制

目前文档未提供详细的预期用途与限制说明。

训练和评估数据

训练数据：mozilla-foundation/common_voice_11_0 （训练集 + 验证集）
评估数据：mozilla-foundation/common_voice_11_0 （测试集）

训练过程

使用 audiomentations 通过 PitchShift 和 TimeStretch 变换在 p = 0.3 时对数据集进行实时增强。

训练超参数

以下是训练过程中使用的超参数：

学习率：1e - 05
训练批次大小：8
评估批次大小：4
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：100
训练步数：1000
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字符错误率（CER）
0.1126	1.21	200	0.1666	7.3103
0.0467	2.42	400	0.1610	6.9419
0.0217	3.63	600	0.1621	6.3874
0.008	4.85	800	0.1699	6.3064
0.0023	6.06	1000	0.1828	6.2133

框架版本

Transformers 4.26.0.dev0
Pytorch 1.13.1+cu117
Datasets 2.8.1.dev0
Tokenizers 0.13.2

📄 许可证

本模型采用 Apache-2.0 许可证。

📦 模型信息

属性	详情
模型类型	Whisper Large V2 - 粤语 - 增强版
训练数据	mozilla-foundation/common_voice_11_0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文