sinai-voice-ar-stt开源语音识别模型 - 免费部署精准识别阿拉伯语语音

首页

Sinai Voice Ar Stt

由 bakrianoo 开发

基于facebook/wav2vec2-xls-r-300m微调的阿拉伯语语音识别模型，在Common Voice阿拉伯语版数据集上训练

语音识别

Transformers

阿拉伯语开源协议:Apache-2.0 #阿拉伯语语音识别 #低词错误率 #Common Voice数据集

下载量 29

发布时间 : 3/2/2022

模型简介

这是一个阿拉伯语自动语音识别(ASR)模型，能够将阿拉伯语语音转换为文本。模型在Common Voice阿拉伯语数据集上微调，适用于标准阿拉伯语语音识别任务。

模型特点

高性能阿拉伯语识别

在Common Voice阿拉伯语测试集上取得18.1%的词错误率(WER)和4.9%的字符错误率(CER)

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-300m模型微调，继承了强大的语音特征提取能力

支持无语言模型推理

可直接使用模型进行语音识别，无需额外语言模型支持

模型能力

阿拉伯语语音识别

语音转文本

自动语音识别

使用案例

语音转录

阿拉伯语语音转录

将阿拉伯语语音内容转换为文本

在标准阿拉伯语测试集上词错误率18.1%

语音助手

阿拉伯语语音指令识别

用于阿拉伯语语音助手系统中的语音指令识别

🚀 西奈语音阿拉伯语语音识别模型

西奈语音阿拉伯语语音识别模型是基于特定数据集微调的模型，可将阿拉伯语语音准确转换为文本，在语音识别任务中表现出色，为阿拉伯语语音处理提供了有效的解决方案。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - AR 数据集上的微调版本。它在评估集上取得了以下结果：

损失：0.2141
字错误率（Wer）：0.1808

在评估集上的结果如下：

评估损失 = 0.2141
评估样本数 = 10388
评估字错误率（eval_wer） = 0.181
字符错误率（eval_cer） = 0.049

✨ 主要特性

多数据集验证：在多个数据集上进行了评估，包括 mozilla - foundation/common_voice_8_0 和 speech - recognition - community - v2/dev_data 等，确保了模型的泛化能力。
指标表现良好：在字错误率（Wer）和字符错误率（Cer）等指标上有较好的表现。

📦 安装指南

文档未提供安装步骤，暂不展示安装指南相关内容。

💻 使用示例

基础用法

from transformers import (Wav2Vec2Processor, Wav2Vec2ForCTC)
import torchaudio
import torch

def speech_file_to_array_fn(voice_path, resampling_to=16000):
    speech_array, sampling_rate = torchaudio.load(voice_path)
    resampler = torchaudio.transforms.Resample(sampling_rate, resampling_to)
    
    return resampler(speech_array)[0].numpy(), sampling_rate

# load the model
cp = "bakrianoo/sinai-voice-ar-stt"
processor = Wav2Vec2Processor.from_pretrained(cp)
model = Wav2Vec2ForCTC.from_pretrained(cp)

# recognize the text in a sample sound file
sound_path = './my_voice.mp3'

sample, sr = speech_file_to_array_fn(sound_path)
inputs = processor([sample], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values,).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))

评估命令

在 mozilla - foundation/common_voice_8_0 的 test 分割上进行评估

python eval.py --model_id bakrianoo/sinai-voice-ar-stt --dataset mozilla-foundation/common_voice_8_0 --config ar --split test

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

学习率：0.0002
训练批次大小：32
评估批次大小：10
随机种子：42
分布式类型：多 GPU
设备数量：8
总训练批次大小：256
总评估批次大小：80
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：1000
训练轮数：10
混合精度训练：原生 AMP

训练结果

训练损失	轮数	步数	验证损失	字错误率（Wer）
1.354	0.64	1000	0.4109	0.4493
0.5886	1.28	2000	0.2798	0.3099
0.4977	1.92	3000	0.2387	0.2673
0.4253	2.56	4000	0.2266	0.2523
0.3942	3.2	5000	0.2171	0.2437
0.3619	3.84	6000	0.2076	0.2253
0.3245	4.48	7000	0.2088	0.2186
0.308	5.12	8000	0.2086	0.2206
0.2881	5.76	9000	0.2089	0.2105
0.2557	6.4	10000	0.2015	0.2004
0.248	7.04	11000	0.2044	0.1953
0.2251	7.68	12000	0.2058	0.1932
0.2052	8.32	13000	0.2117	0.1878
0.1976	8.96	14000	0.2104	0.1825
0.1845	9.6	15000	0.2156	0.1821

框架版本

Transformers 4.16.2
Pytorch 1.10.2+cu113
Datasets 1.18.3
Tokenizers 0.11.0

🔧 技术细节

文档未提供足够详细的技术实现细节，暂不展示技术细节相关内容。

📄 许可证

本模型使用的许可证为 Apache - 2.0。

📋 模型信息

属性	详情
模型类型	西奈语音阿拉伯语语音识别模型
训练数据	mozilla - foundation/common_voice_8_0
评估指标	字错误率（Wer）、字符错误率（Cer）
示例音频	示例 1、示例 2、示例 3