🚀 西奈语音阿拉伯语语音识别模型
西奈语音阿拉伯语语音识别模型是基于特定数据集微调的模型,可将阿拉伯语语音准确转换为文本,在语音识别任务中表现出色,为阿拉伯语语音处理提供了有效的解决方案。
🚀 快速开始
本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - AR 数据集上的微调版本。它在评估集上取得了以下结果:
- 损失:0.2141
- 字错误率(Wer):0.1808
在评估集上的结果如下:
- 评估损失 = 0.2141
- 评估样本数 = 10388
- 评估字错误率(eval_wer) = 0.181
- 字符错误率(eval_cer) = 0.049
✨ 主要特性
- 多数据集验证:在多个数据集上进行了评估,包括
mozilla - foundation/common_voice_8_0
和 speech - recognition - community - v2/dev_data
等,确保了模型的泛化能力。
- 指标表现良好:在字错误率(Wer)和字符错误率(Cer)等指标上有较好的表现。
📦 安装指南
文档未提供安装步骤,暂不展示安装指南相关内容。
💻 使用示例
基础用法
from transformers import (Wav2Vec2Processor, Wav2Vec2ForCTC)
import torchaudio
import torch
def speech_file_to_array_fn(voice_path, resampling_to=16000):
speech_array, sampling_rate = torchaudio.load(voice_path)
resampler = torchaudio.transforms.Resample(sampling_rate, resampling_to)
return resampler(speech_array)[0].numpy(), sampling_rate
cp = "bakrianoo/sinai-voice-ar-stt"
processor = Wav2Vec2Processor.from_pretrained(cp)
model = Wav2Vec2ForCTC.from_pretrained(cp)
sound_path = './my_voice.mp3'
sample, sr = speech_file_to_array_fn(sound_path)
inputs = processor([sample], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values,).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
评估命令
- 在
mozilla - foundation/common_voice_8_0
的 test
分割上进行评估
python eval.py --model_id bakrianoo/sinai-voice-ar-stt --dataset mozilla-foundation/common_voice_8_0 --config ar --split test
📚 详细文档
训练超参数
训练过程中使用了以下超参数:
- 学习率:0.0002
- 训练批次大小:32
- 评估批次大小:10
- 随机种子:42
- 分布式类型:多 GPU
- 设备数量:8
- 总训练批次大小:256
- 总评估批次大小:80
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:1000
- 训练轮数:10
- 混合精度训练:原生 AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错误率(Wer) |
1.354 |
0.64 |
1000 |
0.4109 |
0.4493 |
0.5886 |
1.28 |
2000 |
0.2798 |
0.3099 |
0.4977 |
1.92 |
3000 |
0.2387 |
0.2673 |
0.4253 |
2.56 |
4000 |
0.2266 |
0.2523 |
0.3942 |
3.2 |
5000 |
0.2171 |
0.2437 |
0.3619 |
3.84 |
6000 |
0.2076 |
0.2253 |
0.3245 |
4.48 |
7000 |
0.2088 |
0.2186 |
0.308 |
5.12 |
8000 |
0.2086 |
0.2206 |
0.2881 |
5.76 |
9000 |
0.2089 |
0.2105 |
0.2557 |
6.4 |
10000 |
0.2015 |
0.2004 |
0.248 |
7.04 |
11000 |
0.2044 |
0.1953 |
0.2251 |
7.68 |
12000 |
0.2058 |
0.1932 |
0.2052 |
8.32 |
13000 |
0.2117 |
0.1878 |
0.1976 |
8.96 |
14000 |
0.2104 |
0.1825 |
0.1845 |
9.6 |
15000 |
0.2156 |
0.1821 |
框架版本
- Transformers 4.16.2
- Pytorch 1.10.2+cu113
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技术细节
文档未提供足够详细的技术实现细节,暂不展示技术细节相关内容。
📄 许可证
本模型使用的许可证为 Apache - 2.0。
📋 模型信息
属性 |
详情 |
模型类型 |
西奈语音阿拉伯语语音识别模型 |
训练数据 |
mozilla - foundation/common_voice_8_0 |
评估指标 |
字错误率(Wer)、字符错误率(Cer) |
示例音频 |
示例 1、示例 2、示例 3 |