whisper-medium-ml开源语音识别模型 - 免费实现马拉雅拉姆语自动语音识别

首页

Whisper Medium Ml

由 thennal 开发

基于OpenAI Whisper-medium微调的马拉雅拉姆语自动语音识别模型，在Common Voice 11.0等数据集上训练

语音识别

Transformers

其他开源协议:Apache-2.0 #马拉雅拉姆语ASR #低词错误率 #多数据集微调

下载量 127

发布时间 : 12/12/2022

模型简介

该模型是针对马拉雅拉姆语优化的自动语音识别(ASR)系统，基于Whisper-medium架构微调，支持高准确率的语音转文字功能

模型特点

多数据集训练

融合了Common Voice 11.0、Fleurs及多个马拉雅拉姆语专用数据集训练

优化的错误率

在Common Voice测试集上达到11.49的词错误率(WER)

标准化处理

针对马拉雅拉姆语特性优化了文本标准化处理流程

模型能力

马拉雅拉姆语语音识别

长音频处理（支持30秒分块）

带时间戳的转录（可选）

使用案例

语音转录

语音内容转写

将马拉雅拉姆语语音内容转换为文字

在测试集上达到88.51%的单词识别准确率

辅助工具

无障碍应用

为听力障碍者提供实时字幕生成

🚀 马拉雅拉姆语Whisper Medium模型

本模型是基于openai/whisper-medium在Common Voice 11.0数据集上微调得到的版本。它能够将马拉雅拉姆语语音准确转录为文本，在语音识别任务中具有较高的准确率。

🚀 快速开始

本模型是 openai/whisper-medium 在 Common Voice 11.0 数据集上的微调版本。它在评估集上取得了以下成绩：

字错率（WER）：38.6207
字符错误率（CER）：7.3256

需要注意的是，Whisper 的归一化处理对于马拉雅拉姆语这类语言存在重大问题，因此上述分数是在未使用归一化的情况下评估得出的。若使用归一化（以便与该平台上的其他模型进行公平比较），结果如下：

字错率（WER）：11.49

可以使用此Colab作为进一步微调模型的起点。

💻 使用示例

基础用法

给定一个音频样本 audio（可以是从numpy数组到文件路径的任何形式），以下代码可生成转录内容：

from transformers import pipeline, WhisperProcessor

processor = WhisperProcessor.from_pretrained("thennal/whisper-medium-ml")
forced_decoder_ids = processor.get_decoder_prompt_ids(language="ml", task="transcribe")
asr = pipeline(
        "automatic-speech-recognition", model="thennal/whisper-medium-ml", device=0,
    )
transcription = asr(audio, chunk_length_s=30, max_new_tokens=448, return_timestamps=False,  generate_kwargs={
        "forced_decoder_ids": forced_decoder_ids, 
        "do_sample": True,
    })

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：1e-05
训练批次大小：32
评估批次大小：16
随机种子：42
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练步数：8000
混合精度训练：原生自动混合精度（Native AMP）

框架版本

Transformers：4.26.0.dev0
Pytorch：1.13.0+cu117
Datasets：2.7.1.dev0
Tokenizers：0.13.2

📄 许可证

本模型采用Apache-2.0许可证。

📋 模型信息表格

属性	详情
模型类型	Whisper Medium马拉雅拉姆语微调模型
训练数据	mozilla-foundation/common_voice_11_0、google/fleurs、thennal/IMaSC、thennal/ulca_ml、thennal/msc、thennal/indic_tts_ml
评估指标	字错率（WER）
基础模型	openai/whisper-medium