wav2vec2-large-xls-r-300m-Urdu开源语音识别模型

首页

Wav2vec2 Large Xls R 300m Urdu

由 kingabzpro 开发

基于facebook/wav2vec2-xls-r-300m在Common Voice 8乌尔都语数据集上微调的语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #乌尔都语语音识别 #低词错误率 #多场景语音转写

下载量 91.36k

发布时间 : 3/2/2022

模型简介

该模型是针对乌尔都语优化的自动语音识别(ASR)模型，基于wav2vec2架构，在Common Voice 8数据集上微调，支持乌尔都语语音转文本任务。

模型特点

乌尔都语优化

专门针对乌尔都语语音识别任务进行优化

基于wav2vec2架构

采用Facebook的wav2vec2-xls-r-300m预训练模型作为基础

Common Voice数据集微调

在Mozilla Common Voice 8乌尔都语数据集上进行微调

模型能力

乌尔都语语音识别

语音转文本

长音频处理(支持分块处理)

使用案例

语音转录

乌尔都语语音转录

将乌尔都语语音内容转换为文本

测试集WER 39.89，CER 16.7

语音助手

乌尔都语语音指令识别

用于乌尔都语语音助手系统中的指令识别

🚀 wav2vec2-large-xls-r-300m-Urdu

本模型是在通用语音（Common Voice）数据集上对 facebook/wav2vec2-xls-r-300m 进行微调后的版本。它能够将语音数据准确地转换为乌尔都语文本，为乌尔都语的语音识别任务提供了有效的解决方案。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-300m 在通用语音（Common Voice）数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.9889
词错误率（Wer）：0.5607
字符错误率（Cer）：0.2370

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估

python eval.py --model_id kingabzpro/wav2vec2-large-xls-r-300m-Urdu --dataset mozilla-foundation/common_voice_8_0 --config ur --split test

💻 使用示例

基础用法

from datasets import load_dataset, Audio
from transformers import pipeline
model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
data = load_dataset("mozilla-foundation/common_voice_8_0",
                     "ur",
                     split="test", 
                     streaming=True, 
                     use_auth_token=True)

sample_iter = iter(data.cast_column("path", 
                    Audio(sampling_rate=16_000)))
sample = next(sample_iter)

asr = pipeline("automatic-speech-recognition", model=model)
prediction = asr(sample["path"]["array"], 
                  chunk_length_s=5, 
                  stride_length_s=1)
prediction
# => {'text': 'اب یہ ونگین لمحاتانکھار دلمیں میںفوث کریلیا اجائ'}

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.0001
训练批次大小	32
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	64
优化器	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型	线性
学习率调度器热身步数	1000
训练轮数	200

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）	字符错误率（Cer）
3.6398	30.77	400	3.3517	1.0	1.0
2.9225	61.54	800	2.5123	1.0	0.8310
1.2568	92.31	1200	0.9699	0.6273	0.2575
0.8974	123.08	1600	0.9715	0.5888	0.2457
0.7151	153.85	2000	0.9984	0.5588	0.2353
0.6416	184.62	2400	0.9889	0.5607	0.2370