wav2vec2-large-xls-r-300m-ia开源语音识别模型 - 免费部署精准识别多国语言语音

首页

Wav2vec2 Large Xls R 300m Ia

由 ayameRushia 开发

基于facebook/wav2vec2-xls-r-300m在Common Voice 8.0国际语数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #国际语语音识别 #低词错误率 #多语言支持

下载量 23

发布时间 : 3/2/2022

模型简介

该模型是一个针对国际语优化的自动语音识别(ASR)模型，在Common Voice 8.0数据集上微调，支持将语音转换为文本。

模型特点

高性能语音识别

在Common Voice 8.0国际语测试集上取得了8.6074%的词错误率(WER)和2.4147%的字错误率(CER)

语言模型支持

支持使用语言模型进行解码，显著提升识别准确率

基于大规模预训练模型

基于facebook/wav2vec2-xls-r-300m模型微调，继承了其强大的语音特征提取能力

模型能力

语音转文本

国际语语音识别

支持语言模型解码

使用案例

语音转录

国际语语音转录

将国际语语音内容转换为文本

在测试集上达到8.6074%的词错误率

语音助手

国际语语音指令识别

识别国际语语音指令

🚀 wav2vec2-large-xls-r-300m-ia

该模型是在通用语音（Common Voice）数据集上对 facebook/wav2vec2-xls-r-300m 进行微调后的版本。它在自动语音识别任务中表现出色，能够有效处理相关语音数据，为语音识别领域提供了有力的支持。

🚀 快速开始

此模型是在通用语音数据集上对 facebook/wav2vec2-xls-r-300m 进行微调的版本。它在评估集上取得了以下结果：

损失（Loss）：0.1452
字错误率（Wer）：0.1253

✨ 主要特性

微调模型：基于 facebook/wav2vec2-xls-r-300m 进行微调，更适配通用语音数据集。
多指标评估：使用损失、字错误率（Wer）、字符错误率（CER）等多种指标进行评估，全面衡量模型性能。

📚 详细文档

训练过程

训练在 Google Colab 中进行，训练笔记本可在仓库中找到。

训练和评估数据

语言模型是根据数据集（国际语的通用语音 8.0）的训练 + 验证分割中的处理后句子文本创建的。评估在笔记本中进行，你可以在仓库中的 "notebook_evaluation_wav2vec2_ia.ipynb" 里查看。

评估指标

不使用语言模型（LM）的测试字错误率（WER）：20.1776 %
不使用语言模型（LM）的测试字符错误率（CER）：4.7205 %
使用语言模型（LM）的测试字错误率（WER）：8.6074 %
使用语言模型（LM）的测试字符错误率（CER）：2.4147 %

评估命令

使用 eval.py 进行评估：

huggingface-cli login # 登录到 huggingface 获取访问通用语音 v8 的认证令牌
# 使用语言模型（LM）运行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test

# 不使用语言模型（LM）运行
python eval.py --model_id ayameRushia/wav2vec2-large-xls-r-300m-ia --dataset mozilla-foundation/common_voice_8_0 --config ia --split test --greedy

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率（learning_rate）	3e-05
训练批次大小（train_batch_size）	16
评估批次大小（eval_batch_size）	4
随机种子（seed）	42
梯度累积步数（gradient_accumulation_steps）	2
总训练批次大小（total_train_batch_size）	32
优化器（optimizer）	Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型（lr_scheduler_type）	线性
学习率调度器热身步数（lr_scheduler_warmup_steps）	400
训练轮数（num_epochs）	30
混合精度训练（mixed_precision_training）	原生自动混合精度（Native AMP）

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	字错误率（Wer）
7.432	1.87	400	2.9636	1.0
2.6922	3.74	800	2.2111	0.9977
1.2581	5.61	1200	0.4864	0.4028
0.6232	7.48	1600	0.2807	0.2413
0.4479	9.35	2000	0.2219	0.1885
0.3654	11.21	2400	0.1886	0.1606
0.323	13.08	2800	0.1716	0.1444
0.2935	14.95	3200	0.1687	0.1443
0.2707	16.82	3600	0.1632	0.1382
0.2559	18.69	4000	0.1507	0.1337
0.2433	20.56	4400	0.1572	0.1358
0.2338	22.43	4800	0.1489	0.1305
0.2258	24.3	5200	0.1485	0.1278
0.2218	26.17	5600	0.1470	0.1272
0.2169	28.04	6000	0.1470	0.1270
0.2117	29.91	6400	0.1452	0.1253